Core Concepts
科学情報検索における透明性、論理的思考、包括的理解への重要な前進をもたらす双方向アプローチ。
Abstract
情報検索は急速に進化しているが、科学や産業分野においてはまだ重要な制限事項が存在する。
本稿では、長文書におけるこれらの課題に取り組むための二つのアプローチを紹介。
第一ブロックはスパース検索で言語理解を向上させ、関連文書を取得することに焦点を当てている。
第二ブロックは長文書内の情報だけを使用して複雑な質問に包括的かつ具体的な回答を提供することで結果を深化させている。
ユーザーへのシステム推論の理解を容易にするため、パイプラインの各段階で中間結果が提示されている。
背景作業
科学情報検索は科学言語の複雑さから困難なタスクであり、真実伝播阻止や研究者支援が必要。
知識発見支援や専門家意見発見など多くの方法が提案されてきたが、実用化されていない。
回答生成
長文書から回答を得るためにスパース検索とハイブリッド検索を組み合わせたシステムが導入されている。
多言語セマンティックテキスト類似性センテンス変換器を使用した多段階密集リトリーバルも行われている。
評価
文書リトリーバルブロックはMLDRデータセットで評価され、LLMベースの密集リトリーバル手法よりも優れた性能を示している。
議論と将来展望
システムは工業化可能であり、異なる展開コンテキストに適応可能であることが目指されている。
ユーザーテストや知識グラフ・生成モデルの活用など今後も改善・拡張が予定されている。
Stats
BM25は8192文字まで対応しnDCG@10値57.0を達成しています。M3埋め込み(Dense)は8192文字まで対応しnDCG@10値48.9です。我々の最適化バージョンでは62.4です。
Quotes
"我々はこの双方向アプローチが科学情報検索分野における透明性、論理的思考、包括的理解へ大きな前進をもたらすと信じています。"
"我々はシステム推論への理解促進やユーザーへファクトチェック能力付与を通じて基本的問題点へ取り組むことを目指しています。"