이 연구는 다문서 뉴스 요약에 대한 새로운 과제를 제안한다. 기존 연구는 여러 출처가 동의하는 정보를 종합하는 데 초점을 맞추었지만, 다양한 관점과 의견이 담긴 정보를 요약하는 것은 충분히 탐구되지 않았다.
연구진은 DIVERSESUMM이라는 새로운 데이터셋을 구축했다. 이 데이터셋은 245개의 뉴스 기사 클러스터로 구성되어 있으며, 각 클러스터에는 10개의 뉴스 기사와 인간이 검증한 참조 정보가 포함되어 있다. 참조 정보는 질문-답변 형식으로 구성되어 있으며, 다양한 관점과 의견을 반영한다.
연구진은 대규모 언어 모델(LLM)의 성능을 평가하기 위해 인간 평가를 수행했다. 평가 결과, 심지어 GPT-4와 같은 최신 LLM도 다양한 정보를 충분히 포괄하지 못하는 것으로 나타났다. 이는 제안된 과제가 LLM에게 여전히 복잡한 도전과제임을 시사한다.
또한 연구진은 GPT-4를 평가 지표로 사용할 때의 편향과 최선의 사용 방법을 분석했다. 이를 통해 LLM의 다양한 정보 요약 능력을 효과적으로 평가할 수 있는 방법을 제시했다.
마지막으로, 연구진은 LLM이 다양한 정보를 어떻게 요약하는지 분석했다. 분석 결과, LLM은 초반과 후반 기사의 정보를 더 잘 요약하고, "어떻게"와 "무엇"에 대한 질문에 대한 답변을 충분히 다루지 못하는 것으로 나타났다. 또한 모델 크기가 커질수록 다양한 정보를 더 잘 포괄하는 것으로 확인되었다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kung-Hsiang ... at arxiv.org 03-26-2024
https://arxiv.org/pdf/2309.09369.pdfDeeper Inquiries