Core Concepts
대규모 언어 모델보다 특정 사실 확인 작업을 위해 미세 조정된 트랜스포머 모델이 더 우수한 성능을 보인다.
Abstract
이 논문은 실제 세계 환경에서 90개 이상의 언어를 다루는 종단간 사실 확인 파이프라인의 과제를 탐구한다. 실제 세계 실험 벤치마크를 통해 주장 감지와 진실성 예측과 같은 사실 확인 작업을 위해 특별히 미세 조정된 트랜스포머 모델이 GPT-4, GPT-3.5-Turbo, Mistral-7b와 같은 대규모 언어 모델(LLM)보다 우수한 성능을 제공한다는 것을 보여준다. 그러나 LLM은 증거 검색을 위한 질문 분해와 같은 생성 작업에서 뛰어난 것으로 나타났다. 광범위한 평가를 통해 다국어 환경과 숫자 데이터를 포함하는 복잡한 주장에 대한 미세 조정 모델의 효과를 보여준다.
Stats
이 논문은 114개 언어에 걸쳐 주장 감지 작업에서 미세 조정된 XLM-RoBERTa-Large 모델이 GPT-3.5-Turbo, GPT-4, Mistral-7b 모델보다 평균 Macro-F1 점수가 0.743으로 더 높다고 보고했다.
영어 주장에 대한 진실성 예측 작업에서 미세 조정된 XLM-RoBERTa-Large 모델이 Macro-F1 0.741, Micro-F1 0.750으로 LLM 모델보다 우수한 성능을 보였다.
숫자 주장에 대해 FinQA-RoBERTa-Large 모델이 Macro-F1 0.781, Micro-F1 0.842로 다른 모델보다 더 높은 성능을 보였다.
Quotes
"대규모 언어 모델(LLM)이 주장 분해와 같은 생성 작업에서 우수한 성능을 보였다."
"미세 조정된 트랜스포머 모델이 주장 감지와 진실성 예측 작업에서 LLM보다 더 나은 성능을 보였다."
"숫자 주장에 대해서는 FinQA-RoBERTa-Large 모델이 가장 우수한 성능을 보였다."