정보시스템감리사 시험공부 정리노트 with Gemini
TF-IDF(Term Frequency-Inverse Document Frequency)는 문장이나 문서 군(Corpus) 내에서 특정 단어가 얼마나 중요한지를 나타내는 통계적 수치입니다. 주로 정보 검색(Information Retrieval)이나 텍스트 마이닝에서 핵심 단어를 추출하거나 문서 간 유사도를 구할 때 사용됩니다. 쉽게 요약하자면, "이 문서에서 자주 나오면서도(TF), 다른 문서들에서는 흔치 않은 단어(IDF)가 진짜 중요한 단어다"라는 원리입니다. 1. TF-IDF의 두 가지 구성 요소이름에서 알 수 있듯이 두 가지 지표를 곱해서 계산합니다. ① TF (Term Frequency, 단어 빈도)의미 : 특정 단어가 하나의 문서 내에서 얼마나 자주 등장하는지 나타내는 값입니다.특징 : 문서..
Apriori 알고리즘은 데이터 마이닝과 기계 학습에서 가장 널리 쓰이는 연관 규칙 학습(Association Rule Learning) 알고리즘입니다. 흔히 '장바구니 분석(Market Basket Analysis)'이라고 불리며, 대규모 트랜잭션 데이터베이스에서 "A를 산 고객이 B도 함께 구매하는 경향이 있다"와 같은 패턴을 찾아내는 데 사용됩니다. 1. 연관 규칙의 3가지 핵심 평가지표알고리즘을 이해하기 위해서는 먼저 연관 규칙(A $\rightarrow$ B)의 유용성을 평가하는 세 가지 척도를 알아야 합니다.지지도 (Support) : 전체 거래 중에서 항목집합(A와 B)이 동시에 포함된 거래의 비율입니다. 규칙의 '빈도'를 나타냅니다.$Support(A \rightarrow B) = P(A ..