[30점 만점] 방송통신대 통계 다변량분석 출석 대체 과제물
- 최초 등록일
- 2021.04.16
- 최종 저작일
- 2021.03
- 11페이지/ 어도비 PDF
- 가격 6,000원
목차
1. (1.3.) 자유도가 5인 t-분포를 따르는 난수 100개를 만들어 분석하고자 한다.
2. (1.4.) R에 내장된 Longley 데이터를 이용하여 산점도행렬, 별그림, 얼굴그림을 그리고 해석하라.
3. (2.4.) 1973년 미국 각 주의 강력범죄 자료이다. 변수 Murder, Assault, Rape는 인구 100,000명당 사고건수이고, UrbanPop는 도시인구 비율이다. 이 자료를 이용하여 주성분부석을 실행하고 해석하라.
4. (4.3) 세계의 46개 주요 도시에 대한 물가와 소득에 관한 데이터다(1991년). 평균노동시간, 물가, 소득수준 등의 변수를 사용하여 46개 도시에서 대한 군집분석을 다음과 같이 실시하라.
5. 참고문헌
본문내용
(1) 난수를 생성하라.
- 결과 및 해석
: R에는 기본적으로 난수를 생성하는 함수가 탑재 되어 있다. 문제의 지시사항에 따라 t-분포를 따르는 난수를 생성하기 위해서는 rt() 함수를 사용한다.자유도가 5이고, 100개의 난수를 생성하여 nums라는 변수를 생성했고, 결과는 위의 코드와 실행결과와 같다.
(2) 히스토그램을 그리고 설명하라.
- 결과 및 해석
히스토그램은 도수의 분포를 나타내기 위한 시각화 형태이다. R에서는 기본 탑재되어 있는 hist() 함수를 사용하여 위와 같이 히스토그램을 생성할 수 있다. T-분포를 따르는 100개의 난수 nums에 대하여 히스토그램을 생성한 결과는 위와 같다. 계급의 크기는 2씩 나누어져 있다. 난수생성결과와 같이 히스토그램도 t-분포를 띄고 있다.
(3) 상자그림을 그리고 설명하라.
- 결과 및 해석
상자그림 또는 상자수염그림은 데이터를 통해서 최소값, 1사분위, 2사분위(중위수), 3사분위, 최대 값을 구하고 이를 나타내는 그림이다. 1사분위수보다 작고 3사분위수보다 큰 수는 점 또는 작은 원 등으로 나타내며, 이상치로 분석할 수 있다. R에서는 boxplot() 함수로 그릴 수 있으며, 상자그림을 가로로 그린 결과는 위와 같다. 최소값은 -4에 가까운 수이며, 최대값은 4에 가깝다. 2사분위수 또는 중위수는 0이다. 1사분위수는 -1과 0 사이의 값이며 2사분위수는 0과 1사이의 값인 것을 관찰할 수 있다.
(4) 줄기-잎 그림을 그리고 설명하라.
- 결과 및 해석
줄기-잎 그림은 데이터의 공통되는 부분을 줄기로 모아놓고, 나머지 자료를 잎의 형태로 구성한 그림이다. R에서 stem()함수를 통해 생성한 줄기잎그림에서는 자료의 소수점 이하 자리가 잎으로 구성된 것을 확인할 수 있다. 이 형태는 시각화 표현방식의 특성 상 히스토그램과 유사한 분포를 띄고 있다.
참고 자료
김성수, 김현중, 정성석, 이용구. [다변량분석] 한국방송통신대학교출판문화원, 2014.