다변량분석 ('20-01) 온라인 평가
- 최초 등록일
- 2020.07.12
- 최종 저작일
- 2020.07
- 12페이지/ MS 워드
- 가격 4,500원
목차
1. 4장 군집분석 - 교재 137페이지 연습문제 4.2번: Fisher의 붓꽃 데이터는 아래 표와 같다.150개의 관찰치와 4개의 변수를 모두 이용하여 다음과 같이 군집분석을 실시하라
(1) 각 변수의 표준화한 값을 구하라
(2) K-평균 군집분석방법을 이용하여 3개 군집에 대한 군집분석을 실시하라
(3) K-평균 군집분석의 군집결과와 붓꽃 데이터에 주어져 있는 붓꽃 종류와의 분할표를 구성하고 군집분석의 성능에 대해 평가하라
2. 5장 다차원척도법 - 교재 168페이지 연습문제 5.2번: 다음은 미국 주요 도시간의 항공거리이다. 이 데이터를 이용하여 다차원 척도 분석을 하라
3. 7장 판별분석 - 교재 212페이지 연습문제 7.2번: 다음 자료는 공업도시와 상업도시별로 인구 수(단위: 만 명)와 대기오염도를 조사한 자료이다. R을 이용하여 판별분석을 하고, 결과를 해석하라
4. 8장 로지스틱 회귀분석 - 교재 231페이지 연습문제 8.6번: menarche 자료의 로지스틱 회귀분석 결과를 이용하여 분류표를 작성하고 오류율을 계산하라
5. 9장 나무모형 - 교재 262페이지 연습문제 9.2번: Fisher의 붓꽃 데이터를 이용하여 분류나무를 구하고자 한다. 다음과 같이 분류나무를 구하라
(1) rpart 함수를 이용하여 나무모형을 수행한 후, 나무모형의 도형화 결과를 보이고 결과를 해석하시오. 나무모형을 이용하여 분류한 결과와 원래 그룹과의 분류표를 구하고, 오분류율을 구하시오.
(2) 정지규칙에서 가지를 나누는 최소 자료의 수를 5로 하여 나무모형을 수행하고 앞의 (1)의 결과와 비교하시오.
본문내용
2. 5장 다차원척도법 - 교재 168페이지 연습문제 5.2번: 다음은 미국 주요 도시간의 항공거리이다. 이 데이터를 이용하여 다차원 척도 분석을 하라
행렬이 비율척도 또는 구간척도에 의한 결과일 경우 메트릭(Metric) MDS를 써야 한다. 그리고 위 데이터의 경우 상삼각행렬 형태로 되어 있어, 대칭행렬로 변환하여 작업을 하였다. 변수의 측정단위가 동일하기 때문에 표준화 과정을 거칠 필요 없이 바로 cmdscale 함수를 통해 다차원척도법을 진행하였다.. 이해를 돕기 위해 가로, 세로 각 0인 지점을 점선으로 표시하였다. 해당 분석결과는 미국의 지도를 180도 돌려놓은 것과 일치함을 확인할 수 있다. 이후에 추가적으로 smacof 패키지를 통해서 하였을 때도 동일한 결과를 얻을 수 있었으며 Stress 수치를 볼 때 약 0.2%로 매우 적합이 잘 된것으로 판단하였다. 추가적으로 차원의 갯수에 따른 stress 수치를 보았을 때, 2차원부터는 stress가 기울기가 급격하게 감소한 것으로 보아, 2차원으로 진행하는 것이 적합하다고 보았다.
3. 7장 판별분석 - 교재 212페이지 연습문제 7.2번: 다음 자료는 공업도시와 상업도시별로 인구 수(단위: 만 명)와 대기오염도를 조사한 자료이다. R을 이용하여 판별분석을 하고, 결과를 해석하라
상기 데이터를 csv파일로 저장해서 읽어온 후 head로 첫 6개의 케이스를 확인하고 간략히 기술통계량도 확인하였다. 이후 MASS 패키지의 LDA 함수를 통해 도시를 그룹변수로 하고 나머지 변수를 모두 사용하여 판별분석을 하였다. 그 결과 Prior Probabilities of Group에서 각 그룹별 갯수에 비례하여 사전확률 값을 확인할 수 있으며 그룹의 수가 2개이기 때문에 1개의 선형판별함수가 출력되었다.
이후 판별 함수를 이용하여 주어진 데이터를 predict를 통해서 분류한 후 head 함수로로 사후확률값을 확인해보니 사후확률값(pred.lda$posterior)이 큰 그룹으로 분류되는 것을 알 수 있었다.
참고 자료
없음