Computer Science/Deep Learning Application2 [딥러닝] Subword Tokenizer 딥러닝실제와 응용 수업시간에 발표를 하기 위해 공부한 내용들을 정리하겠다! Out-Of-Vocabulary(OOV) OOV 문제는 기계가 모르는 단어, 즉 임베딩을 해본 단어가 등장했을 때 주어진 문제를 푸는 것이 어려운 상황을 말한다. Subword Tokenizer 이는 하나의 단어를 더 작은 단위의 의미잇는 여러 서브 워드로 분리해서 인코딩, 임베딩을 하겠다는 것이다. Byte-Pair Encoding(BPE) BPE는 글자(char) 단위에서 점차적으로 단어 집합(vocabulary)를 만들어내는 Bottom up 방식으로 접근한다. 방법: 단어들을 모두 글자 단위로 자르고, 가장 많이 등장하는 유니그램(1-gram)을 하나의 글자 통합한다. 이때 vocabulary와 dictionary가 개념적.. 2024. 4. 10. [딥러닝] 4장 NLP&RNN&LSTM 1. Supervised vs Unsupervised Learning : 학습 시 label 사용 여부에 따라 나뉨. Unsupervised Learning:워드 임베딩, 언어 모델, 비교 학습 Supervised Learning: 감정 분석, 기계 번역, 코드 생성, 요약, 질의 응답 2. NLP: a two-stage approach Unsupervised Learning: Large Corpus 등의 dataset으로 Language Modeling을 수행 Supervised Learning: unsupervised로 가공한 dataset으로 Classification, Regression, Language Generation 등을 수행 3. Language Modeling Language Mode.. 2024. 4. 4. 이전 1 다음