BERT(Bidirectional Encoder Representations from Transformers, BERT)는 2018년 구글이 개발한 자연어 처리 신경망 구조이며, 기존의 단방향 자연어 처리 모델들의 단점을 보완한 양방향 자연어 처리 모델이다. 트랜스포머를 이용하여 구현되었으며, 방대한 양의 텍스트 데이터로 사전 훈련된 언어모델이다. BERT의 기본 구조는 위와 같이 transformer의 encoder를 쌓아올린 구조이다. BERT는 이 구조를 기반으로 다음와 같은 Task를 학습시킨다. 다음 문장 예측 (Next Sentence Prediction, NSP) 문장에서 가려진 토큰 예측 (Maked Language Model, MLM) 위와 같은 학습을 거친 모델로 다른 자연어 처리 학습..
Spotify에서 아티스트 정보를 사용해 상위 5개의 노래 정보를 가져와보겠다. 우선 해당 사이트에서 Web APP을 생성하고, Client ID 와 Client Secret Key를 발급받는다. developer.spotify.com/documentation/web-api/ Web API | Spotify for Developers Simply put, your app receives Spotify content through the Spotify Web API. developer.spotify.com 일반적으로는 endpoint 주소를 가져와 https 리퀘스트를 날리지만 오늘은 파이썬 Spotify 라이브러리인 Spotipy를 사용해서 곡 정보를 가져와보겠다. pip install 커맨드로 쉽게 라..
자연어처리는 (Natural Language Processing) 우리가 일상 생활에서 사용하는 언어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 말한다. 음성인식, 내용요약, 번역, 사용자의 감성 분석, 텍스트 분류 작업, 챗봇 등 이미 우리 생활의 전반에 많이 사용되고 있는 기술이다. BERT (Bidirectional Encoder Representations from Transformers) 모델에 대해 자세히 알아보기에 앞서, 자연어 처리에 있어서의 사전훈련의 변천사에 대해 자세히 다뤄보겠다. 1. 사전 훈련된 워드 임베딩 Word2Vec, FastText, GloVe등 다양한 워드 임베딩 방법론들의 문제점은, 하나의 단어가 하나의 벡터값으로 맵핑되므로 문맥을 고려하지 못한다는 점이었..