本論文は、会議記録に基づく情報検索対話データを効率的に生成する新しい手法を提案している。従来の完全手動のWizard-of-Oz (WOZ)方式では、2人の人間アノテーターが会話を作り出すのに対し、本手法では大規模言語モデル (LLM)のプロンプティングを活用して自動的に会話を生成し、その後人間アノテーターが検証・編集を行う。
具体的には以下の流れで進める:
この手法を適用して、会議記録を対象とした初の情報検索対話データセット「MISeD」を構築した。MISeDを用いて学習したモデルは、完全手動で作成したWOZテストデータや既存の会議要約ベンチマークでも良好な性能を示した。
本手法は、会議記録以外の分野でも応用可能であり、効率的なデータセット構築に役立つと考えられる。一方で、出典箇所の自動特定は現状の技術では課題が残されており、今後の研究が期待される。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Lotem Golany... om arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.01121.pdfDiepere vragen