이 연구는 요약문 생성 시 발생하는 환각 문제를 해결하기 위해 도메인 조건부 상호 정보(PMIDC)를 활용하는 방법을 제안한다. 요약문 생성 모델은 소스 텍스트의 도메인에 따라 높은 확률의 토큰을 생성하는 경향이 있어, 소스 텍스트와 일관성이 없는 내용이 생성될 수 있다. PMIDC는 토큰의 도메인 조건부 확률과 주변 확률을 비교하여 이를 완화하는 방식으로, 소스 텍스트와의 일관성을 높이고 사실성을 향상시킬 수 있다.
실험 결과, PMIDC는 XSUM 데이터셋에서 사실성과 소스 관련성 지표에서 유의미한 향상을 보였다. 다만 요약문의 유사성 지표에서는 약간의 감소가 있었다. 이는 PMIDC가 사실성과 관련성 향상에 초점을 맞추어 설계되었기 때문이다. 또한 사람 평가를 통해 PMIDC의 한계점도 확인하였는데, 도메인 키워드 추출의 정확성, 숫자/고유명사 처리, 그리고 과도한 제약으로 인한 모호성 등이 있었다. 향후 연구에서는 이러한 한계를 보완하고, 다양한 모델과 데이터셋에서의 효과를 검증할 필요가 있다.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Kyubyung Cha... om arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09480.pdfDiepere vragen