언어 모델링 (Language Modeling)
언어 모델링(Language Modeling)이란?
주어진 문맥을 활용해 다음에 나타날 단어 예측하기
$$P(w_{1}w_{2}...w_{n}) = \prod_i P(w_{i}|w_{1}w_{2}...w_{i-1})$$
P("집으로 가는 길") = P("집으로")*P("가는"|"집으로")*P("길"|"집으로 가는")
양방향 언어 모델링(Bidirectional Language Modeling)
Deep contextualized word representations (NAACL 2018)
BERT: Bidirectional Encoder Representations from Transformers (NAACL 2019)
언어 모델의 평가
GLUE 벤치마크 (General Language Understanding Evaluation)
언어 모델 평가를 위한 영어 벤치마크
- Quora Question Pairs (QOP, 문장 유사도 평가)
- Question NLI (QNLI, 자연어 추론)
-The Standford Sentiment Treebank (SST, 감성 분석)
- Semantic Textual Similarity Benchmark (STS-B, 문장 유사도 평가)
- Microsoft Research Paraphase Corpus (MRPC, 문장 유사도 평가)
- Recognizing Textual Entailment (RTE, 자연어 추론)
- SQAUD 1.1 / 2.0 (질의 응답)
- MultiNLI Matched (자연어 추론)
- MultiNLI Mismatched(자연어 추론)
- Winograd NLI (자연어 추론)
GLUE 벤치마크로 인해
- 성능이 BERT보다 뛰어난 자연어 이해 모델 등장 계기가 됨(RoBERTa, ELECTRA, ALBERT)
- 자연어 생성 모델의 평가에 활용됨
한국어 자연어 이해 벤치마크 (KLUE: Korean Language Understanding Evaluation)
언어 모델 평가를 위한 다양한 언어의 벤치마크
- 개체명 인식 (Named Entity Recognition)
- 품사 태깅 및 의존 구문 분석 (POS tagging + Dependency Parsing) # 의존관계 분석
- 문장 부류 (Text classification)
- 자연어 추론 (Natural Language Inference)
- 문장 유사도 (Semantic Textual Similarity)
- 관계 추출 (Relation Extraction) # 문장의 단어(Entity)에 대한 속성과 관계 예측
- 질의 응답 (Question & Answering)
- 목적형 대화 (Task-oriented Dialogue)
'AI-Tech 부스트캠프' 카테고리의 다른 글
[특강] AI와 저작권법 (0) | 2023.01.20 |
---|---|
[특강] Kaggle에 대하여 (0) | 2023.01.20 |
2021_10_06_(수) (0) | 2021.10.06 |
2021_10_01_(금) (0) | 2021.10.01 |
2021_09_30_(목) (0) | 2021.10.01 |
댓글