정보시스템감리사 시험공부 정리노트 with Gemini
TF-IDF(Term Frequency-Inverse Document Frequency)는 문장이나 문서 군(Corpus) 내에서 특정 단어가 얼마나 중요한지를 나타내는 통계적 수치입니다. 주로 정보 검색(Information Retrieval)이나 텍스트 마이닝에서 핵심 단어를 추출하거나 문서 간 유사도를 구할 때 사용됩니다. 쉽게 요약하자면, "이 문서에서 자주 나오면서도(TF), 다른 문서들에서는 흔치 않은 단어(IDF)가 진짜 중요한 단어다"라는 원리입니다. 1. TF-IDF의 두 가지 구성 요소이름에서 알 수 있듯이 두 가지 지표를 곱해서 계산합니다. ① TF (Term Frequency, 단어 빈도)의미 : 특정 단어가 하나의 문서 내에서 얼마나 자주 등장하는지 나타내는 값입니다.특징 : 문서..