[방통대 빅데이터의이해] 기말과제물
- 최초 등록일
- 2021.01.02
- 최종 저작일
- 2020.12
- 10페이지/ 한컴오피스
- 가격 4,500원
소개글
"[방통대_빅데이터의이해] 기말과제물"에 대한 내용입니다.
목차
1. 2016년 미국 대선에 대한 여론조사가 트럼프 당선이라는 결과를 제대로 맞추지 못했던 반면 구글 트렌드 등 빅데이터 분석은 결과를 맞추었다고 한다. 이러한 결과가 나타났던 이유를 정리하시오. (10점)
2. 다음의 5개의 관측값에 대한 거리 행렬에 대하여 물음에 답하시오.(20점) (x는 본인 학번 마지막 번호이며 마지막 번호가 0인 경우 1로 이용)
(1) 최단연결법으로 군집을 얻는 과정을 기술하시오.
(2) 최장연결법으로 군집을 얻는 과정을 기술하시오.
(3) (1)과 (2)의 결과를 비교하시오.
3. 추천시스템에 대해 답하시오. (20점)
(1) 협력적 정화 방법에 대해 정리하시오.
(2) 넷플릭스, 아마존 등 추천시스템을 이용하는 기업 하나를 정해서 그 회사의 추천방법을 정리하시오.
4. 프라이버시를 정의하고, COVID-19와 관련해서 ‘프라이버시 보호’와 ‘감염 확산 방지를 위한 효율적 정책’과의 상충관계에 대해 정리하고, 이에 대한 본인의 의견을 제시하시오.(20점)
본문내용
1. 2016년 미국 대선에 대한 여론조사가 트럼프 당선이라는 결과를 제대로 맞추지 못했던 반면 구글 트렌드 등 빅데이터 분석은 결과를 맞추었다고 한다. 이러한 결과가 나타났던 이유를 정리하시오. (10점)
구글트렌드는 검색어가 국가, 도시, 언어에 따라 어떻게 달라지고 있는지를 한 눈에 파악할 수 있도록 시각화하여 제공하는 사이트로 네이버 트렌드와 마찬가지로 키워드를 중심으로 분석할 수 있다. (교재 107 참조). 주제어에 대한 검색 빈도 표시를 해주기 때문에 빈도수에 따라 사람들의 관심도를 데이터 시각화 기법을 통해 직관적으로 인지할 수 있는 장점 역시 있다. 미국 대선 때 각종 언론, 여론기관의 설문조사 결과와 달리, 당시 트럼프 후보가 당선될 수 있었던 것은 설문조사가 가진 조사 방법의 치명적인 단점이 있기 때문이다. 구글트렌드나 국내의 네이버트렌드 서비스의 그래프나 목록에 나오는 검색 빈도 표시 수치 그 값 자체로는 의미가 없다. 해당 기간 동안 비교대상으로 입력한 검색어들을 통틀어 검색 빈도가 최대인 경우를 100으로 놓고 상대 비교한 수치이기 때문이다. 똑같은 검색 화면 내의 그래프나 목록끼리도 ‘100’의 기준이 다라라, 기간/지역/검색어 유형 설정, 카테고리 등 하나의 차이도 없이 동일할 때만 수치로 비교할 수 있다. 그러나, 중요한 것은 데이터가 가진 기본적인 성질, 사실(fact)라는 것이다. 즉, 설문조사의 경우, 조사 대상자들의 심리는 조사 기간과 질문에 영향을 많이 받는다. 또한 사회적으로 바람직한 방향으로 대답하려는 경향과 확신이 없을 경우, 보통 또는 괜찮음 과 같은 중간 위치에 있는 답안을 선택하는 중간화 현상이 있다. 이러한 심리가 설문에 반영되어 있었기 때문에 제대로 된 민심이 반영되지 않은 반면, 사실에 근거한 주제어 검색이었기 때문에 단순한 검색어 빈도 수치였어도 정확한 결과 예측을 할 수 있었던 것이다.
참고 자료
없음