단일 대표값: P@n, MAP, R, MRR, F

1 minute read

평균 정확률 대 재현율 그래프는 테스트 질의 집합에 대한각 검색 알고리즘의 품질을 비교하는 데 유용함.
그러나, 단일 질의에 대한 검색 알고리즘의 품질 평가도 필요하다.

그 이유는 첫째로 모든 질의에 대한평균 정확률은 검색 알고리즘에서 중요한 수치를 왜곡할 수 있음. 둘째, 두 알고리즘을 비교할 때, 예제 질의집합의 각 질의에 대해 다른 것보다 성능이 좋은 알고리즘을 찾아내는데 관심이 있을 수 있다.

n에서의 평균 정확률 P@n

검색엔진의 경우, 5개 또는 10개의 문서를 보고 평균정확률을 측정하는 것이 일반적임.
n의 전형적인 값은 보통 5번째 위치에서의 정확률 (P@5), 10번째에서의 정확률(P@10), 20번째의 정확률(P@20)이다.
사람들이 웹에서 좀처럼 두번째 페이지로 가지 않는 다는 사실에 기반한 정확률이다.

랭킹의 상위에 연관 문서들이 많이 집중될 수록, 사람들은 긍정적인 인상을 받는다.

MAP(Mean Average Precision)

참조

R-정확률

랭킹에서 R번째 위치의 정확률을 계산함으로써 랭킹의 대표 단일 값을 만들어내는 것인데, R은 현재 질의에 대한 연관 문서들의 총 개수(집합 R_q의 문서 개수)이다.

예를 들어, 질의 q1 경우에, 연관 문서의 총 개수는 10(R_q1의 크기)이고 랭킹 상위 10개의 문서 중에서 연관 문서는 4개라 하면, q1에 대한 R정확률은 0.4이다.
질의 q2 경우에, 연관 문서의 총 개수는 3(R_q2의 크기)이고 랭킹 상위 3개의 문서 중에서 연관 문서는 1개라 하면, q2에 대한 R정확률은 0.33이다.

평균 역랭킹 MRR(Mean Reciprocal Rank)

질의나 검색 과제의 첫번째 정답에 관심있는 경우가 있는데, 질의응답(QA) 시스템이 이에 해당된다. QA시스템의 목적은 정렬된 결과 집합을 찾는 대신, 질문에 맞는 답이 포함된 작은 조각을 검색하는 것이다. 웹 질의의 경우도 사용자가 URL 또는 홈페이지에 대한 참조어를 입력하고 첫 번째 정답에 관심을 기울인다.

이러한 경우, 랭킹에서 첫 번째 정답을 중시하는 척도가 선호되며, 평균 역랭킹(MRR; Mean Reciprocal Rank)이 이러한 척도이다.
0과 1사이의 값으로 제한되고 평균정확률에 밀접하게 연관되어있다.

MRR의 단점은, 첫번째 정답만을 고려하고 랭킹 위치 1,2,3에 대해 단지 1, 1/2, 1/3 값만을 사용한다.
그럼에도 불구하고 MRR은 QA세션, URL, 홈페이지 질의와 같이 첫번째 정답이 가장 중요한 경우 유용한 평가 척도이다.