本研究では、LLMによる医療説明引数の自動評価手法を提案している。従来の手法では、参照テキストの取得が困難な医療分野での評価が課題となっていた。また、LLMを評価者として用いる場合、LLM自身の偏りが問題となっていた。
本手法では、医療分野の3つのプロキシタスク(医療MCQAタスク、misinformation検出タスク、臨床試験NLIタスク)を用いて、差別的言語モデルを評価者として訓練する。これにより、LLMの偏りを回避しつつ、人間の評価基準に沿った評価が可能となる。
実験の結果、提案手法の評価者は人間の評価基準と高い整合性を示した。特に、LLMによって生成された引数を評価する際に優れた性能を発揮した。さらに、提案手法は少数の人手ラベルデータ(タスクごとに1例)で構築可能であり、実用的な手法であることが示された。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Iker De la I... lúc arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20565.pdfYêu cầu sâu hơn