728x90
반응형
Advanced Self-supervised Pre-training Models
GPT-2 (Generative Pretrained Training Models)
GPT-1의 업그레이드 버젼이다. Finetuning 과정이 없어졌다.(Finetuing은 돈과 시간이 많이 든다고 한다.)
GPT-2 : Database
- Preprocess
- Byte pair encoding (BPE)
- Minimal fragmentation of words across multiple vocab tokens
- When training, a maximum of 512 tokens are process at the same time
- Layer normalization si important is Transformer Structure
GPT-3
- Language Model이 Few-shot Learners 이다.
- 175억개의 파라미터와 자동언어완성 모델이 few-shot setting에 있다.
- 96개의 attention layers와 Batchsize 는 3.2M크기이다.
ALBERT : A Lite BERT
대부분 NLP모델은 사이즈가 크고 훈련 시간이 길다. ALBERT는 기존 모델보다 model size를 감축하고 speed는 향상시키면서 오히려 성능은 증가시킨 모델이다.
해결 방법은 크게 3가지이다.
- Factorized Embedding Parameterization
- Cross-layer Parameter Sharing
- Sentence Order Prediction
Cross- layer Parameter Sharing
- Shared-FFN : 오직 layers을 거친 feed- forward network parameters만 sharing한다.
- Shared-attention : 오직 layers을 거친 attention parameters만 sharing한다.
- All shared : 위의 둘 다
Sentence Order Prediction
- 기존 BERT에서의 NSP가 생각보다 효용이 없음.
- SOP(Sentence Order Prediction) 논리적 두 문장의 흐름을 파악해 순서를 중요시 여겼더니 좋은 향상이 나타남.
728x90
반응형
'AI-Tech 부스트캠프 > NLP' 카테고리의 다른 글
[NLP] Bag of Words (0) | 2023.01.18 |
---|---|
[NLP] Self-supervised Pre-training Models (0) | 2021.09.18 |
[NLP] Transformer (0) | 2021.09.14 |
[NLP] Basics of Recurrent Neural Networks(RNNs) (0) | 2021.09.10 |
[NLP] 자연어처리란? (0) | 2021.09.06 |
댓글