核心概念
大規模言語モデル (LLM) を専門知識を要するタスクの評価に用いる場合、LLM単独では専門家 (SME) のような深い理解と判断力を再現できないため、人間の専門家による評価が依然として不可欠である。
要約
本稿は、専門知識を必要とするタスクにおいて、LLM自身を評価者として用いる「LLMを判定者とするアプローチ」の限界を検証した研究論文です。
研究目的:
- 専門知識を要するタスクにおいて、LLMを判定者として用いるアプローチは、人間の専門家による評価とどの程度一致するのか?
- LLMと人間の専門家の評価に差異が生じる主な要因と、その要因に関する説明は何か?
方法:
- 栄養学とメンタルヘルスの2つの専門分野において、それぞれ登録栄養士と臨床心理士を専門家として選定。
- 2つの異なるLLM (GPT-4o, GPT-3.5-turbo) に25個の指示を与え、出力結果を生成。
- 専門家とLLM (GPT-4) に対し、生成された2つの出力結果を比較評価させ、どちらが優れているかを判断。
- 専門家とLLMには、評価の根拠となる説明も記述させた。
主な結果:
- 全体的な選好度において、専門家とLLMの判定の一致率は、栄養学分野で64%、メンタルヘルス分野で60%と、比較的低い結果となった。
- 専門家同士の一致率は73%であり、LLMを判定者とするアプローチは、専門家の判断と完全には一致しないことが示唆された。
- 専門家に近い役割をLLMに与える「専門家ペルソナ」を用いることで、全体的な選好度の一致率は若干向上したものの、依然として低いレベルにとどまった。
- 特定の評価項目(正確性、明瞭性、教育的文脈、個人化、専門性)によって、専門家とLLMの一致率は異なり、分野やタスクの複雑さによって影響を受けることが示唆された。
結論:
- 専門知識を要する複雑なタスクにおいて、LLMを判定者として用いることは、人間の専門家による評価を完全に代替できるものではない。
- LLMは、専門家が重視する重要な詳細を見落とす可能性があり、正確性の評価においては特に注意が必要である。
- LLMの評価には、専門家の知識や経験に基づく、より具体的で文脈に即したフィードバックが不可欠である。
本研究の意義:
- LLMを評価に用いる際の限界と、人間の専門家の重要性を明確に示した。
- 専門知識を必要とするタスクにおけるLLMの評価プロセス設計において、人間の専門家の積極的な関与の必要性を提言。
今後の研究課題:
- 専門家ペルソナの改善や、専門家のフィードバックをより効果的にLLMに統合する方法の開発。
- 異なる専門分野におけるLLM評価の特性をより詳細に分析し、分野に特化した評価手法を確立。
統計
栄養学分野における専門家とLLMの全体的な選好度の一致率: 64%
メンタルヘルス分野における専門家とLLMの全体的な選好度の一致率: 60%
専門家同士の全体的な選好度の一致率: 73%