本論文では、技術文書のRAG(Retrieval Augmented Generation)システムの構築に関する課題について検討している。
まず、文書の長さが増えるにつれて、センテンスの埋め込み表現の信頼性が低下することを示している。長い文章では、類似度の分布が二峰性を示し、誤った類似性が観察される。
次に、7つの仮説を立て、それぞれについて実験結果を示している。
これらの観察結果は、技術文書のRAGシステムを構築する上で重要な示唆を与えている。特に、埋め込み表現の信頼性低下や、キーワードの位置、定義の扱い方などが課題として挙げられる。今後は、RAGの評価指標を活用し、追加の質問への対応など、さらなる改善が期待される。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Sumit Soman,... klokken arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00657.pdfDypere Spørsmål