TF-IDF

Term-Frequency Inverse-Document-Frequency

TF (= Term Frequency)

◎ 특정 단어가 특정 문서에서 출현한 횟수

IDF (= Inverse Document Frequency)

◎ DF → 특정 단어가 등장한 문서 수

◎ IDF → DF의 역수

TF-IDF

◎ TF-IDF

= TF(word, document) * IDF(word)

→ 특정 문서에서 더 많이 등장하고, 등장한 문서 갯수가 적은 단어일수록 TF-IDF 값이 크다. (= 중요도가 더 높다.)

→ 따라서 ,"the"나 "a" 같이 거의 모든 문서에서 등장하는 단어들은 TF-IDF 값이 작아진다.

→ 행렬의 각 행과 열을, 각 단어 및 문서를 나타내는 벡터라고 생각할 수 있다.

→ 즉, 일종의 Word Embedding 방법으로 활용할 수 있다.

특징

◎ 장점

→ data-driven : 주어진 데이터를 기반으로 하기 때문에, 현재 데이터 및 Task에 특화됨 (Thesaurus 기반 방식과의 차이점)

◎ 단점

→ 단어 및 문서의 개수가 많아지면, 벡터의 차원이 너무 커진다. (Sparse Vector)

< References >

GloVe (0)	2023.10.07
Word2Vec (0)	2023.10.06
텍스트 데이터 전처리 (Text Preprocessing) (0)	2023.10.02
Central Limit Theorem (중심극한정리) (0)	2023.07.16
Mean Squared Error (MSE) (0)	2023.06.16

How have I been doing so far?