꾸준하게

[RAG] Retrieval 평가지표 본문

LLM

[RAG] Retrieval 평가지표

yeonsikc 2024. 6. 18. 09:56
본 글은 유튜브 '테디노트'님의 랭체인 관련 영상을 보며 정리한 글입니다.
더 자세한 내용은 다음 링크를 참고하시면 좋습니다.

1. Precision

  • LLM의 context length가 적다면 중요(선택할 수 있는 context 개수가 적을 때)
  • 환각 증세를 줄이고 싶을 때 유용
  • Precision을 높이고 싶다면 

2. Recall

  • 대부분의 경우에 유용
  • context에 무조건 들어가게 해야할 경우에 높여야 함(recall이 0.5라면 retrieval gt 중 50%만 가져온 것)

3. F1-score

  • 위 두 평가지표의 조화평균

4. NDCG

  • 순서를 고려한 지표
  • GT는 순서가 없어도 되고, 'Retrieval 결과에서 실제 찾은 답이 상위 순서에 있는가'를 보는 것

5. mAP

  • 순서를 고려한 지표
  • 만약 mAP=0.2면, 평균적으로 5개의 단락의 retrieval 결과에 정답이 포함되어 있다는 뜻
  • 계산 순서 : Precision $\times$ Average Precision $\times$ Mean Average Precision
    1. M개의 Retrieval의 결과가 있는 상황에서의 상위 N개의 결과만을 context로 활용한다고 할 때(N <= M), 각 n마다의 Precision을 계산 : Precision
    2. 계산된 Precision들의 평균을 계산 : Average Precision
    3. 다양한 여러 시도들의 Average Precision의 평균 : Mean Average Precision (MAP)

 

출처 : https://edai.notion.site/Retrieval-Metrics-dde3d9fa1d9547cdb8b31b94060d21e7