수학 이야기

평균, 표준편차, 분산, 그리고 Mahalanobis 거리

다크pgmr 2013. 2. 18. 23:28

얼마전 동생이 전화로 표준편차에 대해서 물어봤다.


"형, 표준편차가 3이라는게 무슨 뜻이야?"


"먼 소리야, 무슨 표준편차? 단위가 먼데?"


"아니, 일일 교통량을 측정하는데, 예를 들어서 평균이 20이고 표준편차가 3인거랑 평균이 80이고 표준편차가 3인거랑 어떻게 다른거야? 표준편차도 에러의 일종이잖아. 근데 평균이 커지면 에러도 커지는건가?"


"......"


동생의 질문 요지는, 여러 통계자료를 보고 교통정책을 세워야 하는데 통계적 수치들을 어떻게 해석해야 하고 좋고 나쁘고를 어떻게 판단해야 할 지에 관한 것이었다.


전화로 열심히 설명해 주기는 했지만, 공대출신에 대학원까지 나온 녀석의 질문 치고는 좀 너무한다 싶다.



일일 교통량의 평균이 20이라는 것은 어떤 날은 교통량이 18대, 또 어떤 날은 19대, ..., 20대, 24대, 21대, 20대, ... 이런 식으로 날마다 조금씩 다를 수는 있지만 평균적으로 20대라는 의미이다.


일일 교통량의 표준편차가 3이라는 것은 편차가 평균적으로 3대 정도 된다는 의미이다.


먼저 편차라는 것을 살펴보면, 편차는 평균과의 차이다. (편차 = 데이터 값 - 평균값)

위 예에서 보면, 편차는 -2대, -1대, ..., 0대, 4대, 1대, 0대, ... 이런 식이다.

얘네들(편차들)을 곧이 곧대로 평균을 해 버리면 +와 -가 상쇄되어 버리기 때문에 항상 0이 나온다.


그래서 제곱을 해서 평균을 취한 것이 분산이다.


즉, -2*-2대, -1*-1대, ..., 0*0대, 4*4대, 1*1대, 0*0대,... 이렇게 편차들을 제곱한 후에 얘네들의 평균을 취한 것이 분산이다.

그리고, 이렇게 구한 분산에다가 다시 루트(root)를 취한 것이 표준편차이다.


편차들을 제곱해서 평균을 취한 다음에 다시 루트를 씌운다 => 표준편차


그렇기 때문에 '표준편차'를 대충 '평균적인 편차'라고 생각해도 무리가 없다.


위 예로 다시 돌아가 보자.


일일 교통량의 평균이 20이고 표준편차가 3이라는 것은,

평균적으로 하루에 20대 정도 차가 지나가는데 들쑥 날쑥한 정도가 평균적으로 3대 정도라는 의미이다. 

즉, 17대가 지나갈 때도 있고 23대가 지나갈 때도 있다는 것이다.


또한, 일일 교통량의 평균이 80이고 표준편차가 3이라는 것은,

평균적으로 하루에 80대 정도 차가 지나가는데 들쑥 날쑥한 정도가 평균적으로 3대 정도라는 의미이다.

즉, 77대가 지나갈 때도 있고 83대가 지나갈 때도 있다는 것이다.


즉, 결론적으로 말하면 평균이 작고 크고는 표준편차와는 아무런 관계가 없다.

단지 데이터들이 평균을 중심으로 얼마나 잘 밀집되어 있느냐 또는 들쭉날쭉한 정도가 얼마나 심하냐를 나타낼 뿐이다.


마지막으로 마할라노비스 거리(Mahalanobis distance)는 평균과의 거리가 표준편차의 몇 배인지를 나타내는 값이다. 위 예에서(하루 교통량 평균이 20대이고 표준편차가 3대) 어느 날 차가 26대가 지나갔다고 하자. 자로 잰 평균과의 거리는 6이다. 그런데, Mahalanobis distance로는 (26 - 20)/3 = 2이다. 즉, 표준적인 편차의 2배 정도의 오차가 있는 값이라는 것이다.


Mahalanobis distance는 어떤 값이 얼마나 일어나기 힘든 값인지, 또는 얼마나 이상한 값인지를 수치화하는 한 방법이다. 예를 들어서, 1년 내내 매일 매일 차가 정확히 20대만 지나갔었는데 어느날 보니 차가 21대가 지나갔다. 얼마나 이상한 일인가? 이 경우 Mahalanobis distance는 굉장히 큰 값을 가질 것이다. 그런데, 차가 어느날은 10대, 다음날은 30대, 또 다른날은 24대, ... 이와 같이 들쑥 날쑥한 경우에 21대가 지나간 것은 전혀 이상한 일이 아닐 것이다. 그래서 이 경우 Mahalanobis distance는 굉장히 작은 값이 나올 것이다.


Mahalanobis distance는 어떤 데이터가 가짜 데이터인지, 아니면 진짜 데이터인지를 구분하는 용도로 주로 사용된다. 예를 들어, 일일 교통량에 대한 평균을 내고자 하는데 어느날 갑자기 정말 이상한 데이터가 들어왔다면 이걸 포함해서 평균을 내는 것 보다는 이것은 이상한 놈으로 치고 정상적인 것으로 판단되는 데이터들만 이용해서 평균을 구하는 것이 보다 합리적일 수 있다. 


우리가 고등학교 수학에서 (확률과 통계 파트) 표준정규분포로 바꾼 후에 z 값을 구하는 것이 바로 Mahalanobis distance를 구하는 과정이다. 그리고 우리가 통상적으로 사용하는 자로 잰 거리는 유클리디언 거리(Euclidean distance)라고 부른다. 


by 다크 프로그래머