fasttext

Data Science/ML&AI

[NLP] Embedding - fastText란?

페이스북에서 개발한 텍스트 임베딩 기법 중 하나로, 전반적으로 word2vec과 유사하나 가장 큰 차이점은 word2vec은 한 단어를 더 이상 쪼개질 수 없는 최소 단위라 생각한다면, fastText는 각 단어를 character 단위 n-gram으로 쪼갠다는 것이다. 즉 내부 단어를 고려하며 학습하여 word2Vec의 한계를 보완한다. 1. fastText의 원리 1-a 내부 단어(subword)의 학습 n의 값에 따라 단어가 얼마나 분리되는지 결정된다. 예를 들어 n = 3 일 때, happy 라는 단어는 hap app ppy + 시작과 끝을 의미하는 를 도입하여 총 다섯가지의 내부 단어를 벡터화 시킨다. # n = 3 # 단어 = happy 여기에 마지막으로 원래의 단어에 를 추가해준 벡터까지 추..

so.py
'fasttext' 태그의 글 목록