본문 바로가기
728x90

NLP3

[NLP] Bag of Words Bag of words란 무엇인가? 말을 직역하면 단어들의 가방이라는 뜻이다. 이는 단어들을 한 가방(공간)안에 넣는 다는 것이다. 우리는 수학적으로 공간안의 위치를 벡터를 통해 나타낼 수 있었다. 그러면 대충 유추하건데 단어들을 가방(공간)에 넣음으로써 단어를 벡터로 표현할 수 있을 것이다. ※ Word Embedding: 단어를 특정한 차원 벡터로 만드는 것 어떻게 벡터로 표현할 것인가? 예시를 하나 들어보자. 'I love NLP' 라는 문장이 있다고 하자. 그러면 우리는 Vocabulary:{"I", "love", "NLP"} 로 나타낼 수 있으며 ● I ; [1, 0, 0] ● love : [0, 1, 0] ● NLP : [0, 0, 1] 로 벡터를 나타낼 수 있다. 각 벡터끼리 거리는 $\sq.. 2023. 1. 18.
[NLP] Basics of Recurrent Neural Networks(RNNs) 사실 이전에 [DL]에서 배운 적이 있어서 쓴 적이 있다. 아래를 먼저 참고하는 것이 좋다. https://thought-process-ing.tistory.com/5 [DL] Recurrent Neural Networks(RNN), Transformer Recurrent Neural Networks(RNN) RNN은 주어진 모델 자체가 Sequential Model이다. 즉 연속된 순서가 존재하는 모델로 비디오, 텍스트등이 여기에 속한다고 생각하면 된다. Sequential Data에서의 RNN 모델의 성능은 thought-process-ing.tistory.com RNN Basic structure: Rolled Version RNN 과 Unrolled version RNN으로 표현할 수 있다.(등식.. 2021. 9. 10.
[NLP] 자연어처리란? 자연어처리 Natural Language Processing(NLP) NLP란? (NLP = NLU + NLG) Text 데이터를 분석하고 모델링하는 분야를 '자연어 처리(Natural Language Processing, NLP)'라고 한다. 이는 자연어를 이해하는 영억인 '자연어 이해(Natural Language Understanding, NLU)'와 모델이 자연어를 생성하는 영역인 '자연어 생성(Natural Language Generation, NLG)' 으로 나뉘어 표현하기도 한다. Natural language processing (major conferences: ACL, EMNLP, NAACL) Low- level parsing Tokenization(토큰화) : 텍스트를 토큰으로 나누는.. 2021. 9. 6.
728x90