마할라노비스를 이용한 이상치 제거하기
- 최초 등록일
- 2019.07.20
- 최종 저작일
- 2019.07
- 7페이지/ 한컴오피스
- 가격 2,000원
목차
I. 서론
Ⅱ. 이상치란?
1. 이상치란?
2. 왜 이상치를 제거해야 하는가?
3. 선형 회귀분석과 이상치
4. 이상치 제거의 어려움
5. 이상치 제거
1) 단변량
2) 다변량
3) 이상치 제거에 있어 ‘유클리디안 거리’ 기준의 문제점
6. 마할라노비스 거리
1) 계산방법
2) 직관적인 설명
7. 마할라노비스 거리에 의한 이상치 제거시 주의할 점
1) 마할라노비스 거리는 은총알이 아니다.
2) 마할라노비스 사용시 주의할 점
III. 결론
IV. 참고문헌
본문내용
I. 서론
이상치를 걸러내기 위한 방법에는 통계적 분석, Isolation Forest 등과 같은 여러가지 방법이 있다. 이상치는 통계분석에서 해당 결과에 영향을 미치기 때문에 분석목적을 훼손시킬 수 있다. 따라서 분석을 수행하기 전에 전처리를 통하여 제거하는 것이 바람직하다고 할 수 있다. 물론 변수가 1개 라면 통계분석을 통하여 상대적으로 쉽게 제거할 수 있겠지만 대상 변수가 여러 개가 된다면 해당 작업이 어려워질 수 있다. 이러한 경우에는 마할라노비스 거리(Mahalanobis distance)가 해결방법이 된다. 본 보고서에서는 마할라노비스를 이용한 데이터 이상치 제거하기에 대해서 알아보도록 하겠다.
II. 본론
1. 이상치란?
- 통계학측면에서 이상치는 ‘변수의 분포상 비정상적으로 극단적인 값을 가져 일반적으로 생각할 수 있는 범위를 벗어난 관측치’라고 규정한다.
- 일반적으로 예상되는 분포범위에서 벗어남으로 인하여 문제가 되는 값들이라고 할 수 있다.
참고 자료
신선호(2018), 데이터의 이상치 객관적으로 솎아내려면, 동아비즈니스리뷰(DBR) 261호