Precision과 Recall
자신이 어떤 기술을 개발하였다. 예를 들어 이미지에서 사람을 자동으로 찾아주는 영상 인식 기술이라고 하자. 이 때, 사람들에게 "이 기술의 검출율은 99.99%입니다"라고 말하면 사람들은 "오우...!!!" 하면서 감탄할 것이다. 반면에 "이 기술의 검출율은 50%입니다"라고 말하면 사람들은 별 관심을 보이지 않거나 "그것도 기술이라고..." 생각할 것이다.
tl;dr
- precision은 검출된 결과의 정확도를 나타낸다
- recall은 실제 물체를 얼마나 덜 빠뜨리고 검출하였는지에 대한 지표이다.
자신이 어떤 기술을 개발하였다. 예를 들어 이미지에서 사람을 자동으로 찾아주는 영상 인식 기술이라고 하자. 이 때, 사람들에게 "이 기술의 검출율은 99.99%입니다"라고 말하면 사람들은 "오우...!!!" 하면서 감탄할 것이다. 반면에 "이 기술의 검출율은 50%입니다"라고 말하면 사람들은 별 관심을 보이지 않거나 "그것도 기술이라고..." 생각할 것이다.
이것은 전형적인 일반인의 반응이다. 이러한 반응이 크게 잘못된 것은 아니지만 이러한 반응에는 명시되지 않은 한 가지 전제가 깔려있다. 그것은 '이 기술은 절대로 오검출을 하지 않는다' 이다.
문제를 조금 바꿔보자. A와 B라는 기술이 있다. A라는 기술은 이미지에 있는 사람을 99.99% 잡아내지만 이미지 1장 당 평균 10건 정도의 오검출이 발생한다. 즉, 사람이 아닌 부분도 사람이라도 검출하는 경우가 빈번히 발생한다. 반면에 B라는 기술은 이미지에 있는 사람들 중 50%밖에 못 잡아내지만 오검출은 거의 발생하지 않는다. 그렇다면 A라는 기술과 B라는 기술 중 어느 기술이 뛰어난 기술인가? 그것은 응용에 따라 달라질 수 있지만 중요한 것은 검출율 만으로 기술을 평가하는 것은 적합하지 않다는 것이다.
검출율 100%의 물체인식 기술은 누구라도 손쉽게 만들 수 있다. 그것은 모든 입력에 대해 항상 물체가 검출된 것으로 반환하도록 알고리즘을 구현하면 되기 때문이다.
인식/탐지 기술의 성능을 평가하기 위해서는 검출율과 정확도를 동시에 고려해야 한다. 검출율은 직관적으로는 detection rate이지만 학문적으로는 recall이란 용어를 사용한다. 그리고 정확도에는 precision이란 용어를 사용한다. recall은 대상 물체들을 빠뜨리지 않고 얼마나 잘 잡아내는지를 나타내고 precision은 검출된 결과가 얼마나 정확한지 즉, 검출 결과들 중 실제 물체가 얼마나 포함되어 있는지를 나타낸다.
어떤 인식 알고리즘의 precision과 recall을 정의해 보면 다음과 같다. detection이란 말이 단지 알고리즘의 출력(결과)임을 상기하면 두 용어의 개념이 보다 명확해진다.
인식 알고리즘의 성능과 관련해서 마지막 오해는 어느 한 고정된 값으로 알고리즘의 성능을 평가하는 것이다. 예를 들어, '어느 알고리즘의 성능은 검출율(recall) 0.9, 정확도(precision) 0.7이다'라고 표현하는 식이다. 하지만 알고리즘의 성능을 어느 한 값으로만 표현하고 평가하는 것은 올바른 방법이 아니다. 왜냐하면 알고리즘의 recall과 precision은 알고리즘의 파라미터 조절에 따라 유동적으로 변하는 값이기 때문에 어느 한 값으로는 알고리즘 전체의 성능을 제대로 표현할 수 없기 때문이다.
일반적으로 알고리즘의 검출율(recall)과 정확도(precision)는 서로 반비례 관계를 가진다. 알고리즘의 파라미터를 조절해 검출율을 높이면 오검출(false alarms)이 증가하고 반대로 오검출을 줄이기 위해 조건을 강화하면 검출율(recall)이 떨어진다.
따라서 인식 알고리즘들의 성능을 제대로 비교하고 평가하기 위해서는 precision과 recall의 성능변화 전체를 살펴봐야 한다. 그리고 그러한 대표적인 방법은 precision-recall 그래프를 이용하는 것이다.
Precision-Recall 그래프
알고리즘의 파라미터(threshold 등) 조절에 따른 precision과 recall의 값의 변화를 그래프로 표현한 것. 일례로 아래 그림은 'Object Detection with Discriminatively Trained Part Based Models', TPAMI 2010 논문에서 DPM 모델의 여러 변형에 따른 성능변화를 그래프로 표현한 것이다.
precision-recall 그래프는 다양한 형태로 변형되어 표현될 수 있는데 recall 대신에 miss rate (miss rate = 1 - recall), precision 대신에는 false alarm rate (false alarm rate = 1 - precision) 등이 사용될 수 있다.
AP (Average Precision)
precision-recall 그래프는 어떤 알고리즘의 성능을 전반적으로 파악하기에는 좋으나 서로 다른 두 알고리즘의 성능을 정량적으로(quantitatively) 비교하기에는 불편한 점이 있다. 그래서 나온 개념이 average precision이다. Average precision은 인식 알고리즘의 성능을 하나의 값으로 표현한 것으로서 precision-recall 그래프에서 그래프 선 아래쪽의 면적으로 계산된다.
컴퓨터 비전 분야에서 물체인식 알고리즘의 성능은 대부분 average precision으로 평가한다.
'AI > Machine Learning' 카테고리의 다른 글
Knowledge Distillation (2) | 2023.10.09 |
---|---|
DecisionTree와 RandomForest에 대하여 (0) | 2020.04.07 |
Bagging과 Boosting 그리고 Stacking (0) | 2020.04.07 |