본문 바로가기

Data Science

TF-IDF

Term-Frequency Inverse-Document-Frequency

 

TF (= Term Frequency)

 

◎  특정 단어가 특정 문서에서 출현한 횟수

 

 

IDF (= Inverse Document Frequency)

 

◎  DF → 특정 단어가 등장한 문서 수

◎  IDF → DF의 역수

 

IDF 수식

 

 

TF-IDF

 

◎  TF-IDF

= TF(word, document) * IDF(word)

 

→ 특정 문서에서 더 많이 등장하고, 등장한 문서 갯수가 적은 단어일수록 TF-IDF 값이 크다. (= 중요도가 더 높다.)

→ 따라서 ,"the"나 "a" 같이 거의 모든 문서에서 등장하는 단어들은 TF-IDF 값이 작아진다.

 

Word \ Document Doc 1 Doc 2 Doc 3 Doc 4 Doc 5
Word 1 0 0.4 0.7 0.1 0
Word 2 0.2 0.9 0.1 0.4 0
Word 3 0.3 0.1 0.5 0.7 0.2
Word 4 0 0 0.8 0 0

 

→ 행렬의 각 행과 열을, 각 단어 및 문서를 나타내는 벡터라고 생각할 수 있다.

→ 즉, 일종의 Word Embedding 방법으로 활용할 수 있다.

 

 

 

특징

 

◎ 장점

data-driven : 주어진 데이터를 기반으로 하기 때문에, 현재 데이터 및 Task에 특화됨 (Thesaurus 기반 방식과의 차이점)

 

단점

단어 및 문서의 개수가 많아지면, 벡터의 차원이 너무 커진다. (Sparse Vector)

 

 


< References >

 

wikidocs, TF-IDF

 

'Data Science' 카테고리의 다른 글

GloVe  (0) 2023.10.07
Word2Vec  (0) 2023.10.06
텍스트 데이터 전처리 (Text Preprocessing)  (0) 2023.10.02
Central Limit Theorem (중심극한정리)  (0) 2023.07.16
Mean Squared Error (MSE)  (0) 2023.06.16