precision, recall의 이해

영상처리 2017.01.02 16:21

자신이 어떤 기술을 개발하였다. 예를 들어 이미지에서 사람을 자동으로 찾아주는 영상 인식 기술이라고 하자. 이 때, 사람들에게 "이 기술의 검출율은 99.99%입니다"라고 말하면 사람들은 "오우...!!!" 하면서 감탄할 것이다. 반면에 "이 기술의 검출율은 50%입니다"라고 말하면 사람들은 별 관심을 보이지 않거나 "그것도 기술이라고..." 생각할 것이다.


이것은 전형적인 일반인의 반응이다. 이러한 반응이 크게 잘못된 것은 아니지만 이러한 반응에는 명시되지 않은 한 가지 전제가 깔려있다. 그것은 '이 기술은 절대로 오검출을 하지 않는다' 이다.


문제를 조금 바꿔보자. A와 B라는 기술이 있다. A라는 기술은 이미지에 있는 사람을 99.99% 잡아내지만 이미지 1장 당 평균 10건 정도의 오검출이 발생한다. 즉, 사람이 아닌 부분도 사람이라도 검출하는 경우가 빈번히 발생한다. 반면에 B라는 기술은 이미지에 있는 사람들 중 50%밖에 못 잡아내지만 오검출은 거의 발생하지 않는다. 그렇다면 A라는 기술과 B라는 기술 중 어느 기술이 뛰어난 기술인가? 그것은 응용에 따라 달라질 수 있지만 중요한 것은 검출율 만으로 기술을 평가하는 것은 적합하지 않다는 것이다.


☞ 검출율 100%의 물체인식 기술은 누구라도 손쉽게 만들 수 있다. 그것은 모든 입력에 대해 항상 물체가 검출된 것으로 반환하도록 알고리즘을 구현하면 되기 때문이다.


인식/탐지 기술의 성능을 평가하기 위해서는 검출율과 정확도를 동시에 고려해야 한다. 검출율은 직관적으로는 detection rate이지만 학문적으로는 recall이란 용어를 사용한다. 그리고 정확도에는 precision이란 용어를 사용한다. recall은 대상 물체들을 빠뜨리지 않고 얼마나 잘 잡아내는지를 나타내고 precision은 검출된 결과가 얼마나 정확한지 즉, 검출 결과들 중 실제 물체가 얼마나 포함되어 있는지를 나타낸다. 


그렇게 어려운 개념이 아님에도 불구하고 의외로 precision과 recall의 개념을 정확히 이해하지 못하고 혼동스러워하는 경우가 종종 있다. 그 이유는 detect라는 말에 대해서 혼동을 가지는 경우가 많기 때문이다. detect라는 단어는 단지 알고리즘이 무언가를 검출했다는 것을 의미할 뿐이다. 우리가 개발한 알고리즘은 완벽하지 않기 때문에 알고리즘이 검출한 결과에는 실제 물체를 물체라고 검출한 것도 있지만 물체가 아닌 것을 물체라고 검출한 수도 있다. 하지만 사람들은 흔히 detect라는 말을 실제 물체를 검출한 경우로만 한정하여 생각하기 쉽다. 이 경우 precision, recall의 개념을 정확하게 이해하지 못하고 혼동스러워하는 원인이 된다.


어떤 인식 알고리즘의 precision과 recall을 정의해 보면 다음과 같다. detection이란 말이 단지 알고리즘의 출력(결과)임을 상기하면 두 용어의 개념이 보다 명확해진다.


 ---(1)


 --- (2)


인식 알고리즘의 성능과 관련해서 마지막 오해는 어느 한 고정된 값으로 알고리즘의 성능을 평가하는 것이다. 예를 들어, '어느 알고리즘의 성능은 검출율(recall) 0.9, 정확도(precision) 0.7이다'라고 표현하는 식이다. 하지만 알고리즘의 성능을 어느 한 값으로만 표현하고 평가하는 것은 올바른 방법이 아니다. 왜냐하면 알고리즘의 recall과 precision은 알고리즘의 파라미터 조절에 따라 유동적으로 변하는 값이기 때문에 어느 한 값으로는 알고리즘 전체의 성능을 제대로 표현할 수 없기 때문이다.


☞ 일반적으로 알고리즘의 검출율(recall)과 정확도(precision)는 서로 반비례 관계를 가진다. 알고리즘의 파라미터를 조절해 검출율을 높이면 오검출(false alarms)이 증가하고 반대로 오검출을 줄이기 위해 조건을 강화하면 검출율(recall)이 떨어진다.


따라서 인식 알고리즘들의 성능을 제대로 비교하고 평가하기 위해서는 precision과 recall의 성능변화 전체를 살펴봐야 한다. 그리고 그러한 대표적인 방법은 precision-recall 그래프를 이용하는 것이다.


Precision-recall 그래프

알고리즘의 파라미터(threshold 등) 조절에 따른 precision과 recall의 값의 변화를 그래프로 표현한 것. 일례로 아래 그림은 'Object Detection with Discriminatively Trained Part Based Models', TPAMI 2010 논문에서 DPM 모델의 여러 변형에 따른 성능변화를 그래프로 표현한 것이다.

그림 1. precision-recall 그래프의 예


precision-recall 그래프는 다양한 형태로 변형되어 표현될 수 있는데 recall 대신에 miss rate (miss rate = 1 - recall), precision 대신에는 false alarm rate (false alarm rate = 1 - precision) 등이 사용될 수 있다.


Average Precision (AP)

precision-recall 그래프는 어떤 알고리즘의 성능을 전반적으로 파악하기에는 좋으나 서로 다른 두 알고리즘의 성능을 정량적으로(quantitatively) 비교하기에는 불편한 점이 있다. 그래서 나온 개념이 average precision이다. Average precision은 인식 알고리즘의 성능을 하나의 값으로 표현한 것으로서 precision-recall 그래프에서 그래프 선 아래쪽의 면적으로 계산된다 (그림 2). 위 그림 1의 예에서 괄호 안의 숫자가 해당 알고리즘의 average precision 값이다. 그리고 average precision이 높으면 높을수록 그 알고리즘의 성능이 전체적으로 우수하다는 의미이다. 컴퓨터 비전 분야에서 물체인식 알고리즘의 성능은 대부분 average precision으로 평가한다.


그림 2. average precision


F-measure

알고리즘의 precision-recall 성능을 하나로 숫자로 표현하는 또 다른 방법이다. F-measure는 precision과 recall의 조화평균으로 계산된다.


 --- (3)



※ 참고사항: Precision과 Accuracy


혼동의 여지가 있어서 의도적으로 언급하지 않은 내용이 있는데 그것은 accuracy와 precision의 구분이다 (원래는 언급하지 않으려고 했는데.. 아래 댓글에 답변을 달다보니 필요해서 추가한 내용입니다). 먼저, 유의해야 할 사항이 하나 있는데 그것은 동일한 단어라 할지라도 그것이 사용된 context에 따라서 의미가 달라질 수 있다는 점이다.


먼저, 단어 자체의 의미로 보면 accuracy는 정확도, precision은 정밀도로 번역되며 어떤 시스템(system)의 특징 또는 성능을 평가하는 척도로서 사용된다. 이 때, accuracy는 시스템의 결과(출력)가 참값(true)에 얼마나 가까운지를 나타나고 precision은 시스템이 얼마나 일관된 값을 출력하는지를 나타낸다. 즉, accuracy는 시스템의 bias를, precision은 반복 정밀도를 나타낸다. 예를 들어, 몸무게를 재는 저울이 있는데 50kg인 사람을 여러 번 측정했을 때 60, 60.12, 59.99, ... 와 같이 60 근방의 값으로 측정했다면 이 저울의 accuracy는 매우 낮지만(에러가 10kg이나 발생함) precision은 매우 높다고 말할 수 있다.


다음으로, 기계학습의 이진 분류(binary classification) 문제에 있어서는 precision이 조금 다른 의미로 사용된다(accuracy는 유사한 의미). Accuracy는 시스템이 올바르게(true를 true로 판단하고 false를 false로 판단) 판단하는 정도를 나타내며 Accuracy = (올바른 판단 횟수) / (판단 총 횟수) = (TP + TN) / (TP + TN + FP + FN)로 계산된다. 반면, precision은  시스템이 true로 판단한 경우에 한해서의 정확도로서 precision = (실제 true 횟수) / (true로 판단한 횟수) = TP / (TP + FP)로 계산된다. 그리고 컴퓨터 비전 분야에서 사용하는 precision은 이 두번째 의미로서의 precision이다. 즉, 검출 시스템이 검출한(true라고 판단한) 결과에 대해서만 정확도를 측정한 것이 precision이다.


컴퓨터 비전 분야의 검출 시스템(detection system)에서는 accuracy는 거의 사용하지 않고 precision만을 사용하기 때문에 precision을 '정확도'라고 번역해도 accuracy와 혼동의 여지가 적다. 그리고 precision의 의미가 반복 정밀도(repeatability)가 아니기 때문에 이 글에서는 의미상 '정밀도'라고 번역하지 않고 '정확도'라고 표현하였다.(삭제 이유는 아래 내용 참조)


☞ (추가내용2) 나중에 다시 곰곰히 생각해 보니 이진 classification 문제나 비전에서 사용하는 precision도 '반복 정밀도'의 의미로도 해석이 가능함을 깨닫게 되었습니다. 즉, 실제 true인 것들에 대해 시스템을 테스트했을 때 그 답변이 항상 일정하면 precision이 높은 것이고 들쭉 날쭉하면 즉, 어느 때는 true라고 답변했다가 다른 때는 false라고 답변했다가 하면 precision이 낮은 것이라고 해석하면 그 뜻이 잘 일치됩니다. 그런 관점에서 보면 precision을 원래 단어 뜻 그대로 '정밀도'로 번역하는 것이 보다 정확할지도 모르겠습니다.. 하지만, 글을 다시 고치기는 귀찮고 또 '정확도'라고 표현하는 것이 직관적으로 이해하기 쉬운 면이 있어서 그냥 그대로 두렵니다.. @@;;


☞ 그리고 recall도 정확히 번역하면 '재현율'이라고 하는 게 맞고, 또 기술적(학문적) 용어로도 재현율이 맞겠습니다. 하지만 일반인의 용어로서 그리고 보다 직관적이다고 생각되어 '검출율'이라고 표현했습니다.


by 다크 프로그래머

저작자 표시 비영리 변경 금지
신고
  • BlogIcon 합격통지서 2017.01.04 16:43 신고 ADDR 수정/삭제 답글

    좋은글 감사합니다.

  • 팔공선녀님 2017.01.05 14:34 신고 ADDR 수정/삭제 답글

    새해 복 많이 받으세요~ 감사합니다

  • hojak99 2017.01.09 20:12 신고 ADDR 수정/삭제 답글

    감사합니다. 많이 배워가네요

  • 나이스데이 2017.01.23 11:12 신고 ADDR 수정/삭제 답글

    좋은 글 감사합니다.

  • 도둑성 2017.01.24 16:15 신고 ADDR 수정/삭제 답글

    안녕하세요 다크프로그래머님
    눈팅으로만 보다가 질문 댓글 남깁니다!
    Superpixel 결과 비교시에 자주 사용되는 Boundary Recall이 존재하는데

    이것에 대해 아시는게 있는지요... 비교로는 많이 사용되지만 소스라던가.. 정보가 너무 부족하더라고요...

    • BlogIcon 다크pgmr 2017.01.24 18:16 신고 수정/삭제

      저도 찾아보니 http://davidstutz.de/superpixel-algorithms-overview-comparison/에 잘 설명되어 있는 것 같습니다. 한번 살펴보시고 잘 파악이 안되는 부분이 있으면 댓글 남겨주시기 바랍니다.

    • 도둑성 2017.01.25 12:45 신고 수정/삭제

      감사합니다 덕분에 많이 배웁니다.

  • 공부중 2017.01.25 08:21 신고 ADDR 수정/삭제 답글

    학부생인데 정말 많이 알아갑니다 ㅠㅠ 감사합니다

  • 스냑 2017.01.25 17:51 신고 ADDR 수정/삭제 답글

    그럼 정확도라는 말은 미검지한 항목을 제외하고 측정되는건가요? 앞으로는 이부분 꼼꼼히 체크해서 데이터를 분석해야겠네요 ㅎㅎ

    • BlogIcon 다크pgmr 2017.01.25 22:34 신고 수정/삭제

      네, precision은 미검지한 부분은 고려치 않고 검지한 부분에 대해서만 정확도를 측정한 것입니다. (사실.. 쓸데없이 문제를 복잡하게 만드는 측면이 있어서 언급하지 않은 부분이 한 가지 있는데 그건 accuracy입니다. 댓글로 달기에는 글이 길어져서 본문에 관련 내용을 추가하였으니 참고하시기 바랍니다)

  • 농구공 2017.02.15 22:49 신고 ADDR 수정/삭제 답글

    음... precision은 정밀도로 번역하는게 맞는데, recall을 검출률이라고 번역하는 곳이 있나요? 보통 재현율이라고 하지않나요. 특히, 본문서도 지적한거 같은데, recall을 검출률이라 번역하면 detection rate(probability of detection)하고 듣는 한국인들은 헷갈려서 위험할거 같은데요.

    • BlogIcon 다크pgmr 2017.02.16 07:49 신고 수정/삭제

      네.. 그렇겠네요. 한편으로 검출율이라고 하면 시스템이 무언가 출력을 내는 율과 혼동할 수 있겠습니다..
      영상에서 사람을 검출하는 시스템이 있는데 이 시스템의 재현율과 정밀도, 이 시스템의 검출율과 정확도... 농구공님은 어떤 게 더 잘 들어오나요? 기술적 용어로는 재현율, 정밀도가 맞고 개념의 혼동의 여지가 적은 것 같습니다. 하지만 일반인의 언어로서 검출율과 정확도가 개인적으로는 더 마음에 와 닿습니다. 그래도 학문을 하는 사람 입장에서는 재현율과 정밀도라고 표현하는게 맞겠죠?? 오락 가락 합니다..

  • 농구공 2017.02.16 12:43 신고 ADDR 수정/삭제 답글

    공학에서 사용되는 용어니까 일반인들에게 설명이 필요한건 어쩔수 없는거죠. 암튼 리콜 프리시전은 각각 재현율 정밀도로 해석하는게 정의상 맞습니다. 일단 프리시전 정의부터 다시보면 tp/(tp+fp) 인데 시스템 출력의 정밀성을 얘기하는거잖아요. 전체 시스템의 true response(tp&fp)들 중에 tp를 얘기하는거니까요. 글고 재현율은 tp/(tp+fn)이고 즉 데이터셋에서 true인 샘플들(tp&fn)중 시스템의 tp이니까 임의의 데이터셋에서 시스템이 tp를 발생할 확률을 말하는거죠. 왜냐면 여러 데이터셋에서 리콜을 측정한 값의 평균은 임의의 데이터셋에서 그정도의 tp를 재현해 낸다라는 의미를 가지니까요.

  • 이순빈 2017.02.28 16:43 신고 ADDR 수정/삭제 답글

    데이터 과학 책에서 흔히 설명하는 혼동 행렬(Confusion Matrix) 개념이네요. 실제 상황에서는 정확도가 같은 모델이어도 음성이 나타날 경우가 지극히 적고, 그 1번을 놓치게 되면 큰 손해를 불러일으킬 경우에 따라 확률에 기댓값 등의 가중치를 부여하며 평가하는 방식도 있었던 것 같습니다.

    OpenCV를 처음 공부할 때부터 다크프로그래머님 블로그 잘 보고 있습니다. Convolutional Neural Network와 같은 딥 러닝 분야에 대해서는 어떠신지 궁금합니다.
    기계학습 전반이나, NIPS 논문 리뷰 포스팅을 올리신 걸 보면 내공이 상당하실 것 같은데요. 최근 동향은 이미지에서 고차원적인 정보를 뽑아내는 것은 물론 Generative Model이라 하여

    Style과 Content라는 고차원적 정보를 수준높게 분리해내는 Style Transfer, 판별자(Discriminator)를 두어 진짜에 가까운 가짜 이미지를 생성하는 DCGAN, 외곽선 등의 적은 정보만으로 내용이미지를 추론하는 pix2pix, 인접 픽셀(정보)의 분포를 추론하는 PixelCNN 같은 이미지 생성 기법에 있어서 흥미롭고 엄청난 결과들을 보여주고 있습니다. 가능하다면 이러한 내용들도 다크프로그래머님 블로그에서도 볼 수 있었으면 좋겠습니다.

    • BlogIcon 다크pgmr 2017.02.28 18:43 신고 수정/삭제

      dnn이 나온 이후로 기술의 흐름이 너무 빨라져서 그동안 쌓아온 것들이 한순간에 과거의 것들이 되어버리고 엄청난 변화를 따라가지 못하는 사람들을 순간 바보로 만듭니다. 저도 그러한 바보 중 한명이고 dnn으로 인해 가능해지고 있는 수많은 응용과 변화들에 감탄을 하고 있습니다. ^^

  • 북극곰괴력 2017.04.03 16:11 신고 ADDR 수정/삭제 답글

    안녕하세요 다크님. 좋은 글들 잘 읽어보았습니다.
    한가지 여쭤볼게 있어서그러는데, 차량 검출을 하는 프로그램을 만드는 중인데 검출률(recall)을 구할 때 만약 첫 프레임에서 10대의 차량 중 9대가 검출되어 검출률 90%, 두 번째 프레임에서 5대의 차량 중 4대가 검출되어 검출률 80%라고 치면 검출률은 각 프레임들의 평균인 85%가 되는것인지요?

    이렇게 구하는 것이 맞다면, 만약 첫 번째 프레임에 10대의 차량중 9대가 검출되고 두 번째 프레임에 1대중 0대가 검출되었다고 치면 총 11대의 차량중 9대를 찾았지만 검출률은 50%정도인 것인가요?

    • BlogIcon 다크pgmr 2017.04.03 20:34 신고 수정/삭제

      안녕하세요. 보통 검출율, 오검출율 등은 프레임 구분을 하지 않고 총 개수를 가지고 산출을 합니다. 즉, 첫 프레임에서 10대의 차량 중 9대가 검출되고 두 번째 프레임에서 5대의 차량 중 4대가 검출되었다면 총 15대의 차량 중 13대가 검출된 것이므로 검출율은 13/15가 됩니다.

  • CV 2017.06.14 01:40 신고 ADDR 수정/삭제 답글

    안녕하세요. 항상 좋은 글들로 많이 배워갑니다. 감사합니다.
    이번에도 덕분에 AP 개념에 대해 배우게 되었네요.ㅎㅎ
    한가지 질문이 있는데요. 컴퓨터 비전쪽 논문들 읽다보면 mAP 라는 정확도 검증 척도가 늘 나오더라구요. mean Average Precision 이라는데.. 이것은 무엇인가요?
    AP를 recall 축으로 나누어준것인지.. 궁금합니다!

    • BlogIcon 다크pgmr 2017.06.14 04:26 신고 수정/삭제

      안녕하세요. detection 알고리즘이 꼭 한 class(사람, 자전거 등의 부류)에만 적용되는 것이 아니기 때문에 각 class마다 계산된 AP들을 전부 평균한 것이 mAP로 알고 있습니다. 예전 VOC 대회에서는 20개 클래스에 대해 detection 알고리즘의 성능을 겨루었는데, 각 클래스마다 AP가 나오고 이들을 평균한 것으로 전체적인 성능을 비교한 것에서 나온 것으로 생각됩니다.

    • CV 2017.06.15 02:10 신고 수정/삭제

      아하.. 감사합니다!

  • 김공자 2017.06.19 16:16 신고 ADDR 수정/삭제 답글

    좋은글 잘읽었습니다.
    분자부분은 같은거라고 봐도 되는건가요?.?

    • BlogIcon 다크pgmr 2017.06.20 15:54 신고 수정/삭제

      식 1과 2를 지칭하는 것이지요? 식에 번호가 없어서 새로 추가했습니다. (1), (2)의 분모가 언뜻 비슷한 것 같지만 서로 다른 값입니다. (1)은 테스트 셋에 있는 실제 true들의 개수이고 (2)는 알고리즘이 true라고 찾은 값입니다. 알고리즘이 true라고 찾은 것들 중에는 실제 true가 아닌 것들(오검출)도 있기 때문에 (1)과 (2)의 분모는 서로 다른 의미입니다.

    • BlogIcon 다크pgmr 2017.06.20 16:00 신고 수정/삭제

      '분자'를 물어보신 것이었는데 제가 잘못봤네요.. 네. 분자는 서로 같은 값입니다!



티스토리 툴바