情報検索システムの評価に部分アノテーションを用いることは、システムの真の性能を反映しない可能性があり、完全な評価のためには、可能な限り多くの関連パッセージを含むデータセットが不可欠である。
従来の密ベクトル検索における、埋め込み学習と近似最近傍探索(ANNS)構造の分離学習による非効率性を、埋め込み生成とANNS構造を共同で最適化する新しいエンドツーエンド学習手法EHIによって解決する。
従来のテキストベースの検索拡張生成(RAG)システムでは、レイアウトや画像などの視覚情報を活用できないため、マルチモーダル文書の処理に限界があった。本稿で提案するVisRAGは、ビジョン言語モデル(VLM)を用いることで、視覚情報を保持したまま文書の検索と生成を行うことを可能にする新しいRAGパイプラインである。
本稿では、命令型情報検索モデルの評価のための新しい大規模ベンチマークであるMAIRを紹介し、既存のベンチマークと比較して、より多様なタスクと詳細な指示を含む包括的な評価が可能であることを示した。
複数の検索拡張生成(RAG)エージェントに対して、各エージェントのフィードバックに基づいて検索エンジンの検索結果を最適化する反復的なアプローチが提案されている。
本稿では、30年以上にわたる200万件以上の論文を収録した大規模学術データセット「Scito2M」を紹介し、学術用語の変遷、引用パターン、学際的な知識交流といった学術計量分析における重要な問題を探求する。
サウンド検索エンジン利用者のクエリは、システムの制約がない場合、より長く詳細になる傾向があり、既存のテキストベースの音声検索システムやデータセットは、実際のユーザーの行動やニーズを必ずしも反映していない。
PubMed knowledge graph 2.0 (PKG 2.0)は、3,600万件以上の論文、130万件以上の特許、48万件以上の臨床試験を統合した、バイオ医学分野の包括的な知識グラフデータセットであり、バイオ医学研究、計量書誌学、文献マイニングに貴重なリソースを提供する。
AI 生成画像が Google 画像検索結果を席巻し始めており、本物の画像を見つけるのが困難になっている現状と、その問題点について論じている。
コストのかかる製品返品が存在する場合、検索の突出性は企業の収益に悪影響を及ぼす可能性があり、場合によっては、目立たない企業の方が有利になる可能性がある。