本研究では、眼科分野の約70,000件の文献、診療ガイドライン、Wikiなどのドキュメントを用いて検索補強手法(Retrieval Augment Generation: RAG)を開発した。100件の消費者向け眼科質問に対して、大規模言語モデルによる応答を、RAGを用いた場合と用いない場合で比較評価した。
評価の結果、RAGを用いない場合、応答の45.3%が根拠のない情報(ホーリュシネーション)、34.1%が軽微な誤りを含んでいたのに対し、RAGを用いた場合は、正しい根拠を含む応答が54.5%と大幅に増加し、ホーリュシネーションも18.8%に減少した。一方で、RAGが検索した上位文献が必ずしも言語モデルに活用されず、また一部の文献が関連性に乏しいため、応答の正確性と完全性がわずかに低下する傾向も見られた。
医療分野における長文質問応答では、RAGアプローチが非RAGアプローチに比べて有効性が高いことが示された。しかし、根拠の検索、選択、帰属付けにおいてなお課題があり、医療分野特化の言語モデルおよびRAG手法のさらなる発展が必要であることが明らかになった。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Aidan Gilson... alle arxiv.org 09-24-2024
https://arxiv.org/pdf/2409.13902.pdfDomande più approfondite