FACTSCORE: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation

이 논문은 ACL논문은 아닌데 어디에 넣을지 몰라 이곳에 저장…

<aside> 💡 TMI (요즘의 고민)

text generation output을 평가해야 하는데 human evaluation과 함께 사용할 automatic evalution 방법들을 찾고 있음
fact checking도 관심영역 중 하나이나, 해당 논문을 읽은 이유는 FACT라는 어려운 task를 어떻게 엄밀하게 평가했는지 흐름을 살펴보기 위함
G-EVAL, GPTScore와 같은 방법도 많이 나왔지만 과연 신뢰할만한 결과인가에 대한 고민이 있음
- 좋은 논문 아신다면 추천 부탁드립니다! </aside>

0. Abstract

Problem

LLM기반의Long form text generation의 factuality를 평가하는 것은 어렵다

(1) supported, unsupported information이 섞인 경우가 종종 있음 (quality inadequate를 평가하기 위해 binary judgement가 필요함)

(2) human evaluation is time-consuming and costly

Solution

FActScore (Factual precision in Atomicity Score)

factual precision (generation에서 each piece of information이 factually accurate한지에 대한 개념)을 평가하는것은 challenging
- generation 결과물은 true of false information이 혼재되어 있음
- 모든 결과물을 평가하는것은 time-consuming and costly