728x90 AI-Tech 부스트캠프/NLP7 LLM에서 padtoken을 eostoken으로 사용하는 이유 LLM 학습코드를 보면 다음과 같은 코드를 흔하게 볼 수 있다.from transformers import AutoTokenziertokenizer = AutoTokenizer.from_pretrained(model_name, padding_side="left")tokenizer.pad_token = tokenizer.eos_token 왜 pad_token을 eos_token으로 사용할까?? 이는 메모리 절약 및 모델의 일관성 유지 때문이라한다. pad_token: 시퀀스 길이를 맞추기 위해 추가하는 토큰. 일반적으로 학습 과정에서 무시됨eos_token: 시퀀스의 끝을 나타내는 토큰으로, 디코더모델에서 중요하게 사용 (1) 메모리 절약LLM에서는 거대한 단어 사전을 사용하므로 pad_token을 따로.. 2025. 3. 20. [NLP] Bag of Words Bag of words란 무엇인가? 말을 직역하면 단어들의 가방이라는 뜻이다. 이는 단어들을 한 가방(공간)안에 넣는 다는 것이다. 우리는 수학적으로 공간안의 위치를 벡터를 통해 나타낼 수 있었다. 그러면 대충 유추하건데 단어들을 가방(공간)에 넣음으로써 단어를 벡터로 표현할 수 있을 것이다. ※ Word Embedding: 단어를 특정한 차원 벡터로 만드는 것 어떻게 벡터로 표현할 것인가? 예시를 하나 들어보자. 'I love NLP' 라는 문장이 있다고 하자. 그러면 우리는 Vocabulary:{"I", "love", "NLP"} 로 나타낼 수 있으며 ● I ; [1, 0, 0] ● love : [0, 1, 0] ● NLP : [0, 0, 1] 로 벡터를 나타낼 수 있다. 각 벡터끼리 거리는 $\sq.. 2023. 1. 18. [NLP] Advanced Self-supervised Pre-training Models Advanced Self-supervised Pre-training Models GPT-2 (Generative Pretrained Training Models) GPT-1의 업그레이드 버젼이다. Finetuning 과정이 없어졌다.(Finetuing은 돈과 시간이 많이 든다고 한다.) GPT-2 : Database Preprocess Byte pair encoding (BPE) Minimal fragmentation of words across multiple vocab tokens When training, a maximum of 512 tokens are process at the same time Layer normalization si important is Transformer Structur.. 2021. 9. 18. [NLP] Self-supervised Pre-training Models Self- supervised Pre-training Models Self-supervised는 무엇인가? Self-supervised는 tagged가 있는 문장들을 [Masked]를 통해 스스로 학습하게 하는 것을 말한다. Self-supervised = pre-training + downstream task 로 나타낼 수 있는데 downstream task 는 문제 종류 분류라고 말 할 수 있다. 즉 목적에 맞게(기계학습, 관계추출 등) 사용 할 수 있다는 것이다. GPT-1 GPT series는 테슬라의 Open AI에서 만든 모델이다. GPT-1은 simple task뿐만 아니라 다양한 task를 한번에 처리하는 통합된 모델이다. GPT-1은 Classification, Entainment, Si.. 2021. 9. 18. 이전 1 2 다음 728x90