(30점 만점) 데이터마이닝 출석수업대체과제 한국방송통신대학교 정보통계학과
- 최초 등록일
- 2020.03.25
- 최종 저작일
- 2019.11
- 21페이지/ 한컴오피스
- 가격 7,500원
소개글
한국방송통신대학교 정보통계학과 데이터마이닝 출석수업대체과제 30점 만점 받았습니다.
목차
1. 1장 연구과제 3번 (3점)
2. 2장 연구과제 2번 (단, data는 담당교수 홈페이지 자료실의 타이태닉 데이터(titanic.csv)를 이용하시오.) 또한, 이 타이태닉 데이터에 나무모형을 적합하시오. 이러한 결과를 통해 로지스틱 회귀모형과 나무모형의 특징을 간단하게 비교해 보시오. (6점)
3. 3장 연구과제 2번의 (1)~(3) (6점)
4. 3장 연구과제 3번 (6점)
5. 4장 연구과제 2번 (3점)
6. 4장 연구과제 4번 (6점)
본문내용
제1장 연구과제 3. 데이터마이닝의 수행과정을 단계별로 설명하라. (3점)
일반적으로 데이터마이닝의 수행단계는 [표 1-1]과 같다. 각 단계들은 상호배타적이거나 한 방향으로 획일적으로 적용되기보다는 상호보완적으로 반복되어 수행된다. 슈무엘(Shumueli) 외(2010)에서 정리한 각 단계별 특징을 간략히 살펴보기로 한다.
[표 1-1] 데이터마이닝의 수행단계 (출처: 교재 p.10~11, Shmueli et al., Data Mining for Business Intgellggence, 2010)
❶ 목적결정
프로젝트의 목적을 계획하고 설정하는 단계이다. 많은 경우 계획단계에서 문제의식이 미리 설정되어 관련 데이터를 수집하게 되지만, 때로는 데이터 수집 후 탐색과정을 거쳐 문제가 설정되기도 한다. 그리고 탐색과정에서 얻은 새로운 발견으로부터 기 설정된 목적이 재설정되기도 한다.
❷ 데이터 수집
데이터는 보통 데이터베이스에서 무작위로 추출하거나 전부 추출하지만, 때로는 분산된 데이터베이스(소비자들의 구매이력자료)를 사용할 수도 있고 외부 데이터베이스(신용평가기관으로부터 얻는 신용등급자료)를 사용할 수도 있다.
<중 략>
제2장 연구과제 2. 이항형 목표변수를 가진 데이터를 구해서 로지스틱 회귀모형을 적합해 보라(단, data는 담당교수 홈페이지 자료실의 타이태닉 데이터(titanic.csv)를 이용하시오). 또한, 이 타이태닉 데이터에 나무모형을 적합하시오. 이러한 결과를 통해 로지스틱 회귀모형과 나무모형의 특징을 간단하게 비교해 보시오. (6점)
1. 로지스틱 회귀모형 적합
데이터를 들여다보면, 좌석등급(Class)을 중심으로 볼 때, 3등석에 있던 승객들이 많이 사망한 반면, 1등석에 있던 승객들이 생존율은 상당히 높다. 『First Class > Second Class > Third Class > Crew』의 순서로 생존율의 차이가 있다는 것이 확인된다. 또한, 성별(Sex) 기준 생존율은 『여성(Female) > 남성(Male)』이며, 연령(Age) 기준으로는 『어린이(Child) > 성인(Adult)』이다.
참고 자료
김성수, 김현중, 정성석, 이용구, 「R을 이용한 다변량분석」, 한국방송통신대학교 출판문화원, 2015.
장영재, 김현중, 조형준, 「데이터마이닝」, 한국방송통신대학교 출판문화원, 2016.
https://analysis-flood.tistory.com/43?category=725389 42. 데이터마이닝-분류분석
https://analysis-flood.tistory.com/44?category=725389 43. 데이터마이닝-분류분석2
https://analysis-flood.tistory.com/45?category=725389 44. 데이터마이닝-분류분석3
https://www.quora.com/Why-decision-trees-are-called-unstable-models Why decision trees are unstable models?