本研究は、大規模言語モデル(LLM)と人間の専門家が「思考発話(Think-Aloud)」プロセスを通じて生成したテキスト属性を組み合わせ、効果的なテキスト評価チェックリストを作成する「InteractEval」フレームワークを提案している。
主な内容は以下の通り:
人間の専門家とLLMがそれぞれ独立して思考発話を行い、テキストの「一貫性」「流暢性」「整合性」「関連性」といった評価次元に関する属性を生成する。
生成された属性を統合し、LLMを使ってキー要素の抽出、属性のクラスタリング、質問の生成を行い、最終的なチェックリストを作成する。
作成されたチェックリストを用いて、LLMがテキストを評価し、人間の評価スコアとの相関を分析する。
人間とLLMの思考発話を組み合わせたInteractEvalが、従来のLLM単独やチェックリスト単独の手法よりも高い評価パフォーマンスを示すことを明らかにした。
人間は内部品質(一貫性、流暢性)の属性生成に優れ、LLMは外部整合性(整合性、関連性)の属性生成に優れることを定性的に分析した。
このように、人間とLLMの長所を組み合わせることで、より詳細で信頼性の高いテキスト評価チェックリストを作成できることが示された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問