방통대 [통계패키지] 중간과제물 30점 만점(인증있음)
- 최초 등록일
- 2021.10.09
- 최종 저작일
- 2021.03
- 16페이지/ MS 워드
- 가격 4,000원
과제정보
학과 |
통계·데이터과학과 |
학년 |
3학년 |
과목명 |
통계패키지 |
자료 |
2건
|
공통 |
1. 연습문제 1장 3번, 4번(p.29)
2. 연습문제 2장 5번, 6번 (p.88)
3. 연습문제 3장 1번 (p.127)
4. 연습문제 4장 4번 (p. 159)
1. 연습문제 1장 3번, 4번(p.29)
2. 연습문제 2장 5번, 6번 (p.88)
3. 연습문제 3장 1번 (p.127)
4. 연습문제 4장 4번 (p. 159)
|
소개글
"방통대 [통계패키지] 중간과제물 30점 만점(인증있음)"에 대한 내용입니다.
목차
1. 연습문제 1장 3번 > 다음은 한 도시의 20개 중고교를 대상으로 조사한 흡연율 자료이다. 도시와 농촌별로 흡연율 자료의 기술통계량 및 상자그림을 그리고 비교/분석하라.
2. 연습문제 1장 4번 > 남녀별 메모의 종류별로 막대그래프를 작성하라
3. 연습문제 2장 5번
4. 연습문제 2장 6번> 다음과 같은 2개의 파일을 읽어서 변수를 추가하는 프로그램을 작성하고, 결과를 인쇄하라.
5. 연습문제 3장 1번
6. 연습문제 4장 4번
본문내용
< 연습문제 1장 3번 >
다음은 한 도시의 20개 중고교를 대상으로 조사한 흡연율 자료이다.
도시와 농촌별로 흡연율 자료의 기술통계량 및 상자그림을 그리고 비교/분석하라.
파이썬으로 작업하였으며 라이브러리는 데이터 프레임 사용을 위해 pandas를, 시각화를 위해 matplotlib와 seaborn을 사용하였습니다.
도시와 농촌별 흡연율 자료의 기술 통계량입니다. 평균은 0.664와 0.667로 비슷하고, 표준편차 또한 약 0.1518과 0.1618로 비슷한 분포를 보이고 있음을 알 수 있습니다. 다만 농촌 흡연율의 최솟값이 0.34로 더 낮고, 도시 흡연율의 최댓값이 0.90으로 농촌보다 더 높은 것을 확인할 수 있습니다. 더 자세한 분포를 알기 위해 상자그림으로 시각화 하였습니다.
위의 박스 플랏(상자 그림)을 통해 도시의 흡연율 분포가 농촌에 비해 더 넓게 퍼져 있는 것을 한눈에 확인할 수 있습니다. 또 중앙값은 비슷하지만 농촌 흡연율이 0.72로 미세하게 더 높습니다. 박스 플랏으로 이상값을 쉽게 검출할 수 있는데요, 농촌 흡연율 데이터 중 최솟값을 훨씬 지난 범위에 아주 낮은 이상값이 있는 것을 확인할 수 있습니다. 이는 어느 농촌 여학교의 흡연율로 0.34를 기록했습니다. 기술 통계량만 봐서는 농촌 데이터의 최솟값이 더 낮기 때문에 분산도 더 크다고 생각할 수 있지만 이렇게 박스 플랏으로 이상값을 감안하고 분포를 확인할 수 있습니다.
< 연습문제 1장 4번 >
남녀별 메모의 종류별로 막대그래프를 작성하라
pandas dataframe의 groupby 함수로 성별에 따른 메모 종류의 빈도수를 count하였습니다. 그를 기반으로 막대그래프를 그렸는데요. 남녀에 상관없이 2번 메모의 종류가 가장 많은 것을 확인할 수 있었습니다.또 두 성별 모두 1번 메모, 3번 메모 순으로 그다음 빈도수가 높았습니다. 다만 2번 메모의 경우 여성이 남성보다 더 많지만, 그 외 종류는 모두 남성이 더 많은 것을 확인할 수 있었습니다.
참고 자료
없음