방송통신대학교(방통대) 고급R활용 과제 (30점/30점)
방통대과제
다운로드
장바구니
소개글
학교: 방송통신대학교(방통대)전공: 정보통계학과
과목: 고급 R 활용
학기: 2019학년도 2학기
30점 만점 받은 과제입니다.
목차
1. 1장 문제1. 다음을 약의 투여용량과 성별, 혈압, 나이 등의 측정 데이터이다.1) 텍스트파일로 만들어 R에서 읽고, 결과를 출력하시오.
2) 엑셀파일로 만들어 입력하고, R에서 읽으시오.
3) 성별로 용량, 혈압, 나이의 평균 및 표준편차를 구하시오.
4) 성별로 용량, 혈압, 나이의 히스토그램 및 상자그림을 그리고 비교하시오.
2. 1장 문제4. <자료 1.1>을 이용하여 다음에 답하시오.
1) 남녀별 값 m을 1로, f는 2로 변환하고, 각각의 도수를 구하시오.
2) 변수 ‘종교’에서 1과 2를 1로, 3은 2로 변환한 새로운 변수를 만들고, 각 값에 적합한 라벨을 지정하시오.
3) 보험금액을 로그변환한 새로운 변수를 만드시오.
4) 보험금액과 월수입의 산점도 및 3)에서 로그변환한 변수와 월수입의 산점도를 그리시오.
5) 남자인 경우만을 택하여 위 4)를 시행하시오.
6) 여자인 경우만을 택하여 위 4)를 시행하시오.
7) 위 5)와 6)의 산점도를 한 화면에 겹친 그림으로 그려보시오.
3. 1장 문제5. R 패키지 hflights에 있는 데이터세트 hflights를 dplyr을 이용하여 데이터 처리하고자 한다.
1) Dim(hflights)의 결과를 보이시오.
2) 다음의 수행한 결과를 보이시오.
3) 다음을 수행한 결과를 보이시오.
4) 변수(distance, airtime)을 선택하고 speed=distance/airtime*60을 포함한 변수(distance, airtime, speed)의 결과를 보이시오.
5) 변수 dest별로 연착시간의 평균을 보이시오.
6) 4)와 5)를 chain 기능을 이용해 작업해 보시오.
4. 1장 문제6. 다음은 13개 시중은행에 대한 편리성, 신속성, 친절, 능률, 쾌적, 자동화 등의 점수를 나타낸 자료이다.
1) 각 변수들의 히스토그램을 그리고, 설명하시오.
2) 산점도행렬 및 상관계수 행렬을 구하고, 변수들의 관계를 살펴보시오.
3) 별그림 및 얼굴그림을 그리고 설명하시오.
5. 2장 문제1. 성공확률이 p인 기하분포의 기댓값과 분산은 (1-p)/p, (1-p)/p2이다. 1,000개의 난수를 얻어 기댓값과 분산을 얻고 이론적인 값과 비교하여 보시오. (geom.dist.r)
6. 2장 문제2. 기하분포의 기댓값과 분산을 알 때 음이항분포 기댓값과 분산은 얼마일지 예측해 보시오. 1,000개의 난수를 발생하여 예측한 기댓값과 분산과 비슷한 값이 나오는지 비교해보시오.
7. 2장 문제3. 자유도가 v인 카이제곱분포를 따르는 확률변수 X의 기댓값과 분산은 각각 v 및 2v이다. 자유도가 10인 카이제곱분포로부터 500개의 난수를 생성하여 기댓값과 분산이 각각 10과 20에 근접한 값이 나오는지 살펴보시오.
8. 2장 문제4. 확률변수 X의 분포가 B(n, p)이면 n→무한대일 때 정규분포에 근사한다. 이항분포 B(20, 0.5)에서 난수 1000개를 생성하여 확률히스토그램을 그리고 그 위에 정규분포 N(10,5)의 확률밀도 함수를 겹쳐 그려서 이항분포의 정규근사가 성립하는지 그림으로 확인하시오.
9. 2장 문제6. 문제5에서 얻은 y의 확률히스토그램을 그려 보시오. 이 히스토그램이 표준정규분포와 얼마나 비슷한지 표준정규분포의 확률밀도함수를 겹쳐 그려서 확인하시오. 이때 표준정규분포와 가까운지 확인하기 위해 난수의 개수를 1,000개로 증가시켜 보시오.
10. 3장 문제3. 다음은 남녀 각 10명의 몸무게를 조사한 자료다. 남자의 몸무게 평균이 여자보다 10이상 큰지 검정하시오. 이떄 먼저 levene 검정을 하여 두 그룹의 분산이 같은지 검정하고, 그 결과에 따라 적절한 검정통계량을 사용하시오.
11. 3장 문제5. 1부터 6 사이의 값을 100개 발생하여 (각각의 확률은 1/6로 동일)이 100개의 자료가 1/6의 확률인지 검정하시오.
12. 3장 문제8. 네 그룹의 평균차이를 검정하기 위해 각 그룹의 자료를 얻었더니 다음과 같았다. One-way.test 함수를 사용하여 검정하시오.
13. 4장 문제1. Diamonds 자료의 각 변수별로 변수의 특성을 잘 나타내는 그림을 그리고 해석하시오.
1) Carat
2) Cut
3) Color
4) Clarity
5) Depth
6) Table
7) Price
8) X
9) Y
10) Z
14. 4장 문제2. Price에 가장 큰 영향을 미치는 변수를 알아보고자 한다. Carat, cut, color, clarity와 price의 관계를 알아보기 위한 그림을 각각 그리고 해석하시오. 단 관측의 개수가 많아짐에 따라 발생하는 문제를 고려할 것.
본문내용
1장 문제1. 다음을 약의 투여용량과 성별, 혈압, 나이 등의 측정 데이터이다.1) 텍스트파일로 만들어 R에서 읽고, 결과를 출력하시오.
> getwd()
[1] "C:/Rdata"
> patient.data.txt=read.table("C:/Rdata/dat1-1.txt", header=T)
> patient.data.txt
id dose sex bp age
1 1 25 female 140 58
2 2 30 male 150 48
3 3 20 female 135 62
4 4 30 male 120 45
5 5 40 male 110 48
6 6 35 female 130 50
7 7 25 female 120 54
8 8 20 female 145 52
9 9 30 male 130 60
10 10 45 female 125 72
2) 엑셀파일로 만들어 입력하고, R에서 읽으시오.
> library(xlsx)
> patient.data.xlsx=read.xlsx("C:/Rdata/dat1-2.xlsx", 1)
> patient.data.xlsx
id dose sex bp age
1 1 25 female 140 58
2 2 30 male 150 48
3 3 20 female 135 62
4 4 30 male 120 45
5 5 40 male 110 48
6 6 35 female 130 50
7 7 25 female 120 54
8 8 20 female 145 52
9 9 30 male 130 60
10 10 45 female 125 72
3) 성별로 용량, 혈압, 나이의 평균 및 표준편차를 구하시오.
> sex=group_by(patient.data.xlsx, sex)
> sex_summary=summarize(sex, doseMean=mean(dose), bpMean=mean(bp), ageMean=mean(age), doseSd=sd(dose), bpSd=sd(bp), ageSd=sd(age))