이 논문은 ACL논문은 아닌데 어디에 넣을지 몰라 이곳에 저장…
<aside> 💡 TMI (요즘의 고민)
Problem
LLM기반의Long form text generation의 factuality를 평가하는 것은 어렵다
(1) supported, unsupported information이 섞인 경우가 종종 있음 (quality inadequate를 평가하기 위해 binary judgement가 필요함)
(2) human evaluation is time-consuming and costly
Solution
FActScore (Factual precision in Atomicity Score)
generation → series of atomic fact로 break하여 평가
reliable knowledge source에 의해 atomic fact가 support되는 확률을 계산함
중복내용 숨김