word embedding (4) 썸네일형 리스트형 FastText Skip-gram(⊂ Word2Vec) 의 한계 ◎ 단어 집한 내 빈도가 적은 단어들은 학습이 잘 안됨 → 단어 사전에서 딱 한 번 등장했다고 하면, n epochs 학습 시 딱 n 번만 학습됨 ex) '다스플레토사우루스', ' supercalifragilisticexpialidocious' ◎ OOV(=Out Of Vocabulary)에 대한 대처가 어려움 FastText ◎ Facebook(※ 현 Meta)에서 개발 ◎ subword를 활용해 Skip-gram의 한계를 극복 → 단어(word) 내부의 subword로 분리해서 학습 Subword 분리 ◎ \(n=3\)일 때, $apple$ 이라는 단어는 아래와 같이 subword들로 분리된다. 먼저 단어의 앞 뒤에 $$ 를 붙여준다. 이후 $n$개씩 .. GloVe GloVe ◎ 카운트 기반 word embedding 방식 (ex. TF-IDF, LSA) 의 단점 → 단어 의미의 유추 작업(=anology task)에서 성능 떨어짐 ex) 영국:런던 ↔ 프랑스:?? ◎ 예측 기반 word embedding 방식 (ex. Word2Vec) 의 단점 → 윈도우 내의 주변 단어들만 고려하기 때문에, 단어 집합의 전체적 통계 정보를 고려하지 못함 ◎ GloVe → 카운트 기반과 예측 기반을 모두 활용해서, 각각의 단점을 각각 보완 ◎ Word2Vec과의 성능 비교 → 두 가지를 모두 적용해보고, 성능이 더 좋은 것을 활용하는 것이 바람직하다. 윈도우 기반 동시 등장 행렬 (Window based Co-occurence Matrix) I like deep learning I.. Word2Vec Word2Vec ◎ 희소 표현 (Sparse Representation) → 백터와 행렬의 값이 대부분 0으로 표현됨 ex) One-hot Encoding ◎ 분산 표현 (Distributed Representation) → 단어의 의미를 다차원 공간에 벡터화 → 분포 가설을 가정함 → 분포 가설 (distributional hypothesis) : 비슷한 문맥에서 등장하는 단어들은 비슷한 의미를 가진다. ◎ Word Embedding → 분산 표현을 이용해, 단어 간 의미적 유사성을 벡터화 하는 작업 ◎ Word2Vec → Word Embedding 방법 중 하나 → CBOW와 Skip-gram 두 가지 방법이 있는데, 전반적으로 Skip-gram의 성능이 더 좋다고 알려져있다. CBOW ◎ 주변 단어.. TF-IDF Term-Frequency Inverse-Document-Frequency TF (= Term Frequency) ◎ 특정 단어가 특정 문서에서 출현한 횟수 IDF (= Inverse Document Frequency) ◎ DF → 특정 단어가 등장한 문서 수 ◎ IDF → DF의 역수 TF-IDF ◎ TF-IDF = TF(word, document) * IDF(word) → 특정 문서에서 더 많이 등장하고, 등장한 문서 갯수가 적은 단어일수록 TF-IDF 값이 크다. (= 중요도가 더 높다.) → 따라서 ,"the"나 "a" 같이 거의 모든 문서에서 등장하는 단어들은 TF-IDF 값이 작아진다. Word \ Document Doc 1 Doc 2 Doc 3 Doc 4 Doc 5 Word 1 0 0.4 0.. 이전 1 다음