목차
1. 데이터 마이닝 알고리즘의 정의
2. 데이터 마이닝 알고리즘의 종류 및 비교 분석
2-1. 연관 규칙(Association rules)
2-2. 결정 트리(Decision tree)
2-2-1. CART(Classification and Regression Trees) 알고리즘
2-2-2. C 4.5 알고리즘
2-2-3. CHAID(Chi-squared Automatic Interaction Detection) 알고리즘
2-2-4. 그 외 결정 트리 알고리즘
2-3. 클러스터링(Clustering)
2-3-1. K-means 알고리즘
2-3-2. K-medoids 알고리즘
2-3-3. CLARANS 알고리즘
2-3-4. BIRCH 알고리즘
2-3-5. DBSCAN 알고리즘
2-3-6. CURE 알고리즘
2-4. 신경망(Neural network)
2-5. 유전 알고리즘
2-6. 베이지안 네트워크
2-7. 메모리 기반 추론
3. 참고문헌
본문내용
1. 데이터 마이닝 알고리즘의 정의
데이터 마이닝은 데이터 집합에서 유의미한 패턴을 찾아내는 과정으로 정의되며 발견된 패턴들을 통해 경제적 이점을 이끌어내는 것을 목표로 한다. 패턴을 찾아내는 과정에서는 알고리즘이 적용되는데, 이 때 알고리즘의 사전적 정의는 “어떠한 문제를 해결하기 위한 여러 동작들의 모임”이다. 즉, 알고리즘이란 알고리즘이란 연산, 데이터 진행 또는 자동화된 추론을 수행하는 단계적 집합이며, 이 중 활발하게 이용되는 알고리즘으로는 연관규칙, 클러스터링, 신경망, 결정 트리, 유전 알고리즘, 베이지안 네트워크, 메모리 기반 추론 등이 있으며 하위 개념으로 각 카테고리에 속하는 다양한 알고리즘들이 존재한다.
2. 데이터 마이닝 알고리즘의 종류 및 비교 분석
데이터 마이닝의 목표는 경제적 이점을 이끌어낸다는 점에서 공통점을 가지고 있으나, 마케팅 및 판매 전략, 고객 지원 혹은 의학, 범죄 수사 등 분야별로 적합한 알고리즘의 종류가 다양하다. 본 보고서에서는 앞서 언급한 연관규칙, 클러스터링, 신경망, 결정 트리, 유전 알고리즘, 베이지안 네트워크, 메모리 기반 추론 등 7가지 알고리즘을 큰 틀에서 다루고 이 중 결정트리, 클러스터링의 하위 범주에 속하는 데이터 마이닝 알고리즘들의 개념(개요, 개발자, 타입 등)에 대해 알아볼 것이다.
2-1. 연관 규칙(Association rules)
연관 규칙이란 항목들 간의 조건-결과 식으로 표현되는 유용한 패턴을 말한다. 일반적으로 매우큰 데이터 집합을 대상으로 하며, 한 번 데이터 집합을 탐색하면서 개개의 서로 다른 크기를 가진 아이템 집합을 찾는다. 연관 규칙은 마케팅 분야에서 가장 많이 사용되는데, 이를 통해 “목요일에 슈퍼마켓에서 기저귀를 사는 고객들은 맥주도 함께 구매한다”는 연관성을 발견한 것이 유명한 예시이다. 이와 같은 연관 규칙의 산업 분야로의 적용은 컴퓨터 기술의 발전 덕분에 가능했다.
참고 자료
Jiawei Han, Mucheline Kamber, Jianfei Wu(2015), 데이터 마이닝 : 개념과 기법, 에이콘
이정원, 김호숙, 최지영, 김현희, 용환승, 이상호, 박승수(2001), 데이타마이닝 알고리즘 분류 및 분석, 정보과학회논문지 : 데이타베이스 제 28권 제 3호
Ian H. Witten, Eibe Frank, Mark A. Hall(2005), Data mining, 에이콘
Galit Shimueli, Nitin R. Patel, Peter C. Bruce(20120, Data mining for business intelligence, 이앤비플러스
나종화(2017), R 데이터마이닝, 자유아카데미