본문 바로가기
AI-Tech 부스트캠프/NLP

[NLP] Advanced Self-supervised Pre-training Models

by Alan_Kim 2021. 9. 18.
728x90
반응형

Advanced Self-supervised Pre-training Models

 

GPT-2 (Generative Pretrained Training Models)

 GPT-1의 업그레이드 버젼이다. Finetuning 과정이 없어졌다.(Finetuing은 돈과 시간이 많이 든다고 한다.)

GPT-1과 GPT-2의 비교

  GPT-2 : Database

  • Preprocess
  • Byte pair encoding (BPE)
  • Minimal fragmentation of words across multiple vocab tokens
  • When training, a maximum of 512 tokens are process at the same time
  • Layer normalization si important is Transformer Structure

 

GPT-3

  •  Language Model이 Few-shot Learners 이다.
  •  175억개의 파라미터와 자동언어완성 모델이 few-shot setting에 있다.
  •  96개의 attention layers와 Batchsize 는 3.2M크기이다.

 

ALBERT : A Lite BERT

대부분 NLP모델은 사이즈가 크고 훈련 시간이 길다. ALBERT는 기존 모델보다 model size를 감축하고 speed는 향상시키면서 오히려 성능은 증가시킨 모델이다.

 해결 방법은 크게 3가지이다.

  •   Factorized Embedding Parameterization
  •   Cross-layer Parameter Sharing
  •   Sentence Order Prediction

 

기존 BERT에 비해 훨씬 효율적이라는 것을 알 수 있다.

  Cross- layer Parameter Sharing

  • Shared-FFN : 오직 layers을 거친 feed- forward network parameters만 sharing한다.
  • Shared-attention : 오직 layers을 거친 attention parameters만 sharing한다.
  • All shared : 위의 둘 다

Sentence Order Prediction

  • 기존 BERT에서의 NSP가 생각보다 효용이 없음.
  • SOP(Sentence Order Prediction) 논리적 두 문장의 흐름을 파악해 순서를 중요시 여겼더니 좋은 향상이 나타남.

NSP에 대한 내용은 그래서 삭제하고 SOP에 대한 내용을 넣게 되었다.

 

728x90
반응형

'AI-Tech 부스트캠프 > NLP' 카테고리의 다른 글

[NLP] Bag of Words  (0) 2023.01.18
[NLP] Self-supervised Pre-training Models  (0) 2021.09.18
[NLP] Transformer  (0) 2021.09.14
[NLP] Basics of Recurrent Neural Networks(RNNs)  (0) 2021.09.10
[NLP] 자연어처리란?  (0) 2021.09.06

댓글