[30점 만점] 비정형 데이터 분석 중간 과제물 통계학과 방송통신대
제로콜라맛있다
다운로드
장바구니
과제정보
학과 | 통계·데이터과학과 | 학년 | 4학년 |
---|---|---|---|
과목명 | 비정형데이터분석 | 자료 | 1건 |
공통 |
1. 역사 속에 나타난 데이터 기록의 사례를 조사하여 약술하시오. (6점)
2. 개인정보, 가명정보, 익명정보의 개념을 사례를 들어 비교하고 설명하시오. (9점) 3. 다음 <보기>와 같은 텍스트 데이터가 존재한다고 가정하자. 이 데이...
1. 역사 속에 나타난 데이터 기록의 사례를 조사하여 약술하시오. (6점)
2. 개인정보, 가명정보, 익명정보의 개념을 사례를 들어 비교하고 설명하시오. (9점) 3. 다음 <보기>와 같은 텍스트 데이터가 존재한다고 가정하자. 이 데이터가 맵리듀스 과정의 input 데이터라면 이후의 맵리듀스 과정은 어떻게 진핼될 것인지 단계별로 도시하고 설명하라. (단, Splitting 단계에서는 문장구조에 상관없이 첫 단어부터 시작하여 세 단어씩 나누어진다고 가정하자.) (9점) <보기> This is an example The example is easy Next example is more difficult than this 4. R의 ‘rvest’ 및 ‘dplyr’ 패키지를 이용하여 관심 있는 웹페이지의 텍스트를 읽어오는 코드를 작성하고 실행해 보라. (6점) |
목차
1. 역사 속에 나타난 데이터 기록의 사례를 조사하여 약술하시오.2. 개인정보, 가명정보, 익명정보의 개념을 사례를 들어 비교하고 설명하시오.
3. 맵리듀스: 다음 <보기>와 같은 텍스트 데이터가 존재한다고 가정하자.
4. R 의 rvest 및 dplyr 패키지를 이용하여 관심 있는 웹페이지의 텍스트를 읽어오는 코드를 작성하고 실행해보라.
본문내용
1. 역사 속에 나타난 데이터 기록의 사례를 조사하여 약술하시오.영국의 내과의사인 존 스노우(John Snow)는 콜라레에 대한 연구를 기반으로 1855년, “콜레라 전염방식에 대하여(On the Mode of Communication of Cholera)”라는 저서를 출간하였다. 이 저서는 1800 년 중반, 의료 데이터의 정교한 기록과 활용의 대표적인 사례로 손꼽힌다.
1854년, 런던 브로드가에서 발병한 콜레라는 616명의 사망자를 발생 시켰다. 내과
의사의 입장에서 각각의 사망 건을 일일이 조사하는 방식에는 수많은 자원과 시간을이 요구되었다. 하지만 존 스노우는 특정 지역을 지목하여 수십명에 이르는 콜레라 사망건에 대해 발생 위치를 기록하고, 지리적인 정보인 지도와 결합한 형태로 시각화 하였다(그림 1). 지도에서 한 개의 막대(그림 2)는 한 명의사망자를 의미하며, 막대가 쌓여 있는 것은, 한 세대 내에서 발생한 사망자 수를 의미한다. 또한 우물 펌프(PUMP)를 표시하였다.
스노우가 기록한 바에 따르면, 타 지역과는 다르게, 지도의 중앙에 위치한 브로드가에 위치한 세대에서 다수의 사망자 수가 발생하였고, 특히 우물 펌프 바로 근처의 세대에서 이상치로 보일 만큼 높은 사망자 수가 관측 되었다. 이러한 단서를 추적하여 존 스노우는 콜레라가 전염된 아기의 기저귀가 우물 펌프에 버려졌고, 식수와 맥주 양조를 위한 물을 우물 펌프를 통해 이용한 브로드가에서 다수의 콜레라 발병 건이 발생한 것과, 콜레라균은 공기의 호흡이 아닌 대변에서 구강으로 이어지는 경로를 통해 전염된다는 것을 밝혀냈다.
결과적으로 존 스노우는 기록한 데이터를 토대로 사망자가 밀집된 지역과 콜레라가 발병한 거리, 우물펌프를 공유하는 맥주 양조장, 공장 등의 산업지역, 하천, 우물펌프의 위치 등 주변 지형을 관찰하여 콜레라의 발병 원인과 전염 경로를 효과적으로 추론할 수 있었고, 이를 토대로 지역사회를 설득해 우물펌프를 폐쇄하는 조치를 이끌어냈다.
참고 자료
장영재, 손원, 황희진. [비정형 데이터 분석], 한국 방송통신대 출판 문화원, 2020.Mapping The 1854 Broadstreet Pump Outbreak”, Department of Epidemiology
University of California, Los Angeles. 2020 년 9 월 25 일 접속.
https://www.ph.ucla.edu/epi/snow/mapsbroadstreet.html
개인정보법”, 국가법령보호센터. 2020 년 9 월 28 일 접속.
http://www.law.go.kr/%EB%B2%95%EB%A0%B9/%EA%B0%9C%EC%9D%B8%EC%A0
%95%EB%B3%B4%20%EB%B3%B4%ED%98%B8%EB%B2%95
전승재, 권헌영. (2018). 개인정보, 가명정보, 익명정보에 관한 4 개국 법제 비교분석.
정보법학, 22(3): 183-218
개인정보? 가명정보? 익명정보?”, 네이버 개인정보보호 공식 블로그. 2020 년 2 월 13 일
작성. 2020 년 9 월 28 일 접속. https://blog.naver.com/n_privacy/221807198263
Dean, J., AND Ghemawat, S. “Mapreduce: simplified data processing on large
clusters”. In OSDI’04: Proceedings of the 6th conference on Symposium on Opearting
Systems Design & Implementation (Berkeley, CA, USA, 2004), USENIX Association,
pp. 10–10.
HiphopLE”, 힙합엘이, 2020 년 10 월 2 일 접속. http://hiphople.com/fboard