본문 바로가기

Learning/Natural Language Processing

(1)

TF-IDF algorithm Term Frequency-Inverse Document Frequency WHY 특정 단어가 특정 문서에서"만" 얼마나 자주 출현하는지 알아내기 위해 WHAT 특정 단어가 특정 문서에서 TF-IDF 값이 높으면 그 단어는 그 특정 문서에서만 높은 출현 빈도 특정 단어가 특정 문서에서 TF-IDF 값이 낮으면 그 단어는 여러 문서에서 여러번 나타나거나 아니면, 특정 그 문서에 출현 빈도가 낮음 HOW * TF 를 DF 로 나눈 것 -> 그래서 TF x inverse DF * TF : 특정 단어가 특정 문서에 등장한 횟수 * DF : 특정 단어를 가지는 "문서" 자체의 수 / 모든 문서의 수 ( 모든 문서의 수 = 고정 값 = 상수 ) LIMITATIONs * 긴 문서에는 각 단어들이 높은 빈도수, 짧은 ..

티스토리툴바