本論文では、長文書類の質問応答(DocQA)を効果的に行うために、Multi-view Content-aware Indexing (MC-indexing)と呼ばれる新しい手法を提案している。
MC-indexingの特徴は以下の通り:
実験の結果、MC-indexingは固定長チャンキングや単一視点のインデックス化に比べて、8種類の検索手法(疎なモデル2種、密なモデル6種)の検索性能を大幅に向上させることが示された。特に、上位1.5、3、5、10件の再現率が42.8%、30.0%、23.9%、16.3%それぞれ向上した。
また、MC-indexingを用いて生成された答えの質も、固定長チャンキングを用いた場合と比べて優れていることが確認された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kuicai Dong,... at arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.15103.pdfDeeper Inquiries