precision, recall의 이해

영상처리 2017. 1. 2. 16:21

자신이 어떤 기술을 개발하였다. 예를 들어 이미지에서 사람을 자동으로 찾아주는 영상 인식 기술이라고 하자. 이 때, 사람들에게 "이 기술의 검출율은 99.99%입니다"라고 말하면 사람들은 "오우...!!!" 하면서 감탄할 것이다. 반면에 "이 기술의 검출율은 50%입니다"라고 말하면 사람들은 별 관심을 보이지 않거나 "그것도 기술이라고..." 생각할 것이다.


이것은 전형적인 일반인의 반응이다. 이러한 반응이 크게 잘못된 것은 아니지만 이러한 반응에는 명시되지 않은 한 가지 전제가 깔려있다. 그것은 '이 기술은 절대로 오검출을 하지 않는다' 이다.


문제를 조금 바꿔보자. A와 B라는 기술이 있다. A라는 기술은 이미지에 있는 사람을 99.99% 잡아내지만 이미지 1장 당 평균 10건 정도의 오검출이 발생한다. 즉, 사람이 아닌 부분도 사람이라도 검출하는 경우가 빈번히 발생한다. 반면에 B라는 기술은 이미지에 있는 사람들 중 50%밖에 못 잡아내지만 오검출은 거의 발생하지 않는다. 그렇다면 A라는 기술과 B라는 기술 중 어느 기술이 뛰어난 기술인가? 그것은 응용에 따라 달라질 수 있지만 중요한 것은 검출율 만으로 기술을 평가하는 것은 적합하지 않다는 것이다.


☞ 검출율 100%의 물체인식 기술은 누구라도 손쉽게 만들 수 있다. 그것은 모든 입력에 대해 항상 물체가 검출된 것으로 반환하도록 알고리즘을 구현하면 되기 때문이다.


인식/탐지 기술의 성능을 평가하기 위해서는 검출율과 정확도를 동시에 고려해야 한다. 검출율은 직관적으로는 detection rate이지만 학문적으로는 recall이란 용어를 사용한다. 그리고 정확도에는 precision이란 용어를 사용한다. recall은 대상 물체들을 빠뜨리지 않고 얼마나 잘 잡아내는지를 나타내고 precision은 검출된 결과가 얼마나 정확한지 즉, 검출 결과들 중 실제 물체가 얼마나 포함되어 있는지를 나타낸다. 


그렇게 어려운 개념이 아님에도 불구하고 의외로 precision과 recall의 개념을 정확히 이해하지 못하고 혼동스러워하는 경우가 종종 있다. 그 이유는 detect라는 말에 대해서 혼동을 가지는 경우가 많기 때문이다. detect라는 단어는 단지 알고리즘이 무언가를 검출했다는 것을 의미할 뿐이다. 우리가 개발한 알고리즘은 완벽하지 않기 때문에 알고리즘이 검출한 결과에는 실제 물체를 물체라고 검출한 것도 있지만 물체가 아닌 것을 물체라고 검출한 수도 있다. 하지만 사람들은 흔히 detect라는 말을 실제 물체를 검출한 경우로만 한정하여 생각하기 쉽다. 이 경우 precision, recall의 개념을 정확하게 이해하지 못하고 혼동스러워하는 원인이 된다.


어떤 인식 알고리즘의 precision과 recall을 정의해 보면 다음과 같다. detection이란 말이 단지 알고리즘의 출력(결과)임을 상기하면 두 용어의 개념이 보다 명확해진다.


 ---(1)


 --- (2)


인식 알고리즘의 성능과 관련해서 마지막 오해는 어느 한 고정된 값으로 알고리즘의 성능을 평가하는 것이다. 예를 들어, '어느 알고리즘의 성능은 검출율(recall) 0.9, 정확도(precision) 0.7이다'라고 표현하는 식이다. 하지만 알고리즘의 성능을 어느 한 값으로만 표현하고 평가하는 것은 올바른 방법이 아니다. 왜냐하면 알고리즘의 recall과 precision은 알고리즘의 파라미터 조절에 따라 유동적으로 변하는 값이기 때문에 어느 한 값으로는 알고리즘 전체의 성능을 제대로 표현할 수 없기 때문이다.


☞ 일반적으로 알고리즘의 검출율(recall)과 정확도(precision)는 서로 반비례 관계를 가진다. 알고리즘의 파라미터를 조절해 검출율을 높이면 오검출(false alarms)이 증가하고 반대로 오검출을 줄이기 위해 조건을 강화하면 검출율(recall)이 떨어진다.


따라서 인식 알고리즘들의 성능을 제대로 비교하고 평가하기 위해서는 precision과 recall의 성능변화 전체를 살펴봐야 한다. 그리고 그러한 대표적인 방법은 precision-recall 그래프를 이용하는 것이다.


Precision-recall 그래프

알고리즘의 파라미터(threshold 등) 조절에 따른 precision과 recall의 값의 변화를 그래프로 표현한 것. 일례로 아래 그림은 'Object Detection with Discriminatively Trained Part Based Models', TPAMI 2010 논문에서 DPM 모델의 여러 변형에 따른 성능변화를 그래프로 표현한 것이다.

그림 1. precision-recall 그래프의 예


precision-recall 그래프는 다양한 형태로 변형되어 표현될 수 있는데 recall 대신에 miss rate (miss rate = 1 - recall), precision 대신에는 false alarm rate (false alarm rate = 1 - precision) 등이 사용될 수 있다.


Average Precision (AP)

precision-recall 그래프는 어떤 알고리즘의 성능을 전반적으로 파악하기에는 좋으나 서로 다른 두 알고리즘의 성능을 정량적으로(quantitatively) 비교하기에는 불편한 점이 있다. 그래서 나온 개념이 average precision이다. Average precision은 인식 알고리즘의 성능을 하나의 값으로 표현한 것으로서 precision-recall 그래프에서 그래프 선 아래쪽의 면적으로 계산된다 (그림 2). 위 그림 1의 예에서 괄호 안의 숫자가 해당 알고리즘의 average precision 값이다. 그리고 average precision이 높으면 높을수록 그 알고리즘의 성능이 전체적으로 우수하다는 의미이다. 컴퓨터 비전 분야에서 물체인식 알고리즘의 성능은 대부분 average precision으로 평가한다.


그림 2. average precision


F-measure

알고리즘의 precision-recall 성능을 하나로 숫자로 표현하는 또 다른 방법이다. F-measure는 precision과 recall의 조화평균으로 계산된다.


 --- (3)



※ 참고사항: Precision과 Accuracy


혼동의 여지가 있어서 의도적으로 언급하지 않은 내용이 있는데 그것은 accuracy와 precision의 구분이다 (원래는 언급하지 않으려고 했는데.. 아래 댓글에 답변을 달다보니 필요해서 추가한 내용입니다). 먼저, 유의해야 할 사항이 하나 있는데 그것은 동일한 단어라 할지라도 그것이 사용된 context에 따라서 의미가 달라질 수 있다는 점이다.


먼저, 단어 자체의 의미로 보면 accuracy는 정확도, precision은 정밀도로 번역되며 어떤 시스템(system)의 특징 또는 성능을 평가하는 척도로서 사용된다. 이 때, accuracy는 시스템의 결과(출력)가 참값(true)에 얼마나 가까운지를 나타나고 precision은 시스템이 얼마나 일관된 값을 출력하는지를 나타낸다. 즉, accuracy는 시스템의 bias를, precision은 반복 정밀도를 나타낸다. 예를 들어, 몸무게를 재는 저울이 있는데 50kg인 사람을 여러 번 측정했을 때 60, 60.12, 59.99, ... 와 같이 60 근방의 값으로 측정했다면 이 저울의 accuracy는 매우 낮지만(에러가 10kg이나 발생함) precision은 매우 높다고 말할 수 있다.


다음으로, 기계학습의 이진 분류(binary classification) 문제에 있어서는 precision이 조금 다른 의미로 사용된다(accuracy는 유사한 의미). Accuracy는 시스템이 올바르게(true를 true로 판단하고 false를 false로 판단) 판단하는 정도를 나타내며 Accuracy = (올바른 판단 횟수) / (판단 총 횟수) = (TP + TN) / (TP + TN + FP + FN)로 계산된다. 반면, precision은  시스템이 true로 판단한 경우에 한해서의 정확도로서 precision = (실제 true 횟수) / (true로 판단한 횟수) = TP / (TP + FP)로 계산된다. 그리고 컴퓨터 비전 분야에서 사용하는 precision은 이 두번째 의미로서의 precision이다. 즉, 검출 시스템이 검출한(true라고 판단한) 결과에 대해서만 정확도를 측정한 것이 precision이다.


컴퓨터 비전 분야의 검출 시스템(detection system)에서는 accuracy는 거의 사용하지 않고 precision만을 사용하기 때문에 precision을 '정확도'라고 번역해도 accuracy와 혼동의 여지가 적다. 그리고 precision의 의미가 반복 정밀도(repeatability)가 아니기 때문에 이 글에서는 의미상 '정밀도'라고 번역하지 않고 '정확도'라고 표현하였다.(삭제 이유는 아래 내용 참조)


☞ (추가내용2) 나중에 다시 곰곰히 생각해 보니 이진 classification 문제나 비전에서 사용하는 precision도 '반복 정밀도'의 의미로도 해석이 가능함을 깨닫게 되었습니다. 즉, 실제 true인 것들에 대해 시스템을 테스트했을 때 그 답변이 항상 일정하면 precision이 높은 것이고 들쭉 날쭉하면 즉, 어느 때는 true라고 답변했다가 다른 때는 false라고 답변했다가 하면 precision이 낮은 것이라고 해석하면 그 뜻이 잘 일치됩니다. 그런 관점에서 보면 precision을 원래 단어 뜻 그대로 '정밀도'로 번역하는 것이 보다 정확할지도 모르겠습니다.. 하지만, 글을 다시 고치기는 귀찮고 또 '정확도'라고 표현하는 것이 직관적으로 이해하기 쉬운 면이 있어서 그냥 그대로 두렵니다.. @@;;


☞ 그리고 recall도 정확히 번역하면 '재현율'이라고 하는 게 맞고, 또 기술적(학문적) 용어로도 재현율이 맞겠습니다. 하지만 일반인의 용어로서 그리고 보다 직관적이다고 생각되어 '검출율'이라고 표현했습니다.


by 다크 프로그래머