이 연구는 대규모 언어 모델(LLM)의 대화 이해력을 평가하고 개선하는 것을 목표로 한다.
먼저, 대화 요약 과제를 통해 LLM의 사실적 일관성을 평가하였다. 5개의 인기 있는 LLM을 사용하여 대화 요약을 생성하고, 이를 수동으로 평가하였다. 그 결과, 평균적으로 26.8%의 요약에서 사실적 불일치가 발견되었다. 심지어 ChatGPT와 같은 강력한 모델에서도 16%의 오류가 있었다.
이어서, 요약의 사실적 불일치를 기반으로 DIAC-FactQA 데이터셋을 구축하였다. 이 데이터셋은 대화 이해력을 보다 유연하고 정확하게 평가할 수 있다. 실험 결과, LLM의 평균 오답률은 36.1%로 나타났다.
마지막으로, 대화 이해력 향상을 위해 자동 구축된 다중 과제 학습 데이터를 활용하여 모델을 fine-tuning하였다. 실험 결과, 이를 통해 대화 이해력이 향상되었음을 확인할 수 있었다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問