페이스북에서 개발한 텍스트 임베딩 기법 중 하나로, 전반적으로 word2vec과 유사하나 가장 큰 차이점은 word2vec은 한 단어를 더 이상 쪼개질 수 없는 최소 단위라 생각한다면, fastText는 각 단어를 character 단위 n-gram으로 쪼갠다는 것이다. 즉 내부 단어를 고려하며 학습하여 word2Vec의 한계를 보완한다. 1. fastText의 원리 1-a 내부 단어(subword)의 학습 n의 값에 따라 단어가 얼마나 분리되는지 결정된다. 예를 들어 n = 3 일 때, happy 라는 단어는 hap app ppy + 시작과 끝을 의미하는 를 도입하여 총 다섯가지의 내부 단어를 벡터화 시킨다. # n = 3 # 단어 = happy 여기에 마지막으로 원래의 단어에 를 추가해준 벡터까지 추..
자연어처리는 (Natural Language Processing) 우리가 일상 생활에서 사용하는 언어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 말한다. 음성인식, 내용요약, 번역, 사용자의 감성 분석, 텍스트 분류 작업, 챗봇 등 이미 우리 생활의 전반에 많이 사용되고 있는 기술이다. BERT (Bidirectional Encoder Representations from Transformers) 모델에 대해 자세히 알아보기에 앞서, 자연어 처리에 있어서의 사전훈련의 변천사에 대해 자세히 다뤄보겠다. 1. 사전 훈련된 워드 임베딩 Word2Vec, FastText, GloVe등 다양한 워드 임베딩 방법론들의 문제점은, 하나의 단어가 하나의 벡터값으로 맵핑되므로 문맥을 고려하지 못한다는 점이었..