核心概念
技術文書のRAG(Retrieval Augmented Generation)システムの構築には課題がある。埋め込み表現がドメイン情報を十分に捉えられないことが問題となる。過去の研究を振り返り、RAGシステムの構築における最良の実践と潜在的な課題について実験を通して明らかにする。
要約
本論文では、技術文書のRAG(Retrieval Augmented Generation)システムの構築に関する課題について検討している。
まず、文書の長さが増えるにつれて、センテンスの埋め込み表現の信頼性が低下することを示している。長い文章では、類似度の分布が二峰性を示し、誤った類似性が観察される。
次に、7つの仮説を立て、それぞれについて実験結果を示している。
定義と定義語を別々に扱うと、クエリの結果が改善される。
類似度スコアを用いて検索結果を比較することは適切ではない。絶対値が非常に小さい場合でも正解が得られる。
キーワードの位置が重要で、文頭に近いほど高精度に検索される。一方、文末のキーワードは検索が困難。
センテンスベースの類似度検索の方が、段落ベースの検索よりも良い結果を得られる。
センテンスベースの類似度検索と段落ベースの検索結果を組み合わせると、生成結果が改善される。
略語や略語を含む単語の定義では、生成結果が不適切になることがある。
検索結果の順序は生成結果に影響しない。
これらの観察結果は、技術文書のRAGシステムを構築する上で重要な示唆を与えている。特に、埋め込み表現の信頼性低下や、キーワードの位置、定義の扱い方などが課題として挙げられる。今後は、RAGの評価指標を活用し、追加の質問への対応など、さらなる改善が期待される。
統計
文書の長さが増えるにつれて、センテンスの埋め込み表現の類似度分布が二峰性を示し、誤った類似性が観察される。
引用
"センテンスベースの類似度検索の方が、段落ベースの検索よりも良い結果を得られる。"
"センテンスベースの類似度検索と段落ベースの検索結果を組み合わせると、生成結果が改善される。"
"略語や略語を含む単語の定義では、生成結果が不適切になることがある。"