Core Concepts
LLMを使った出力評価は、LLMが抱える問題を引き継ぐため、さらなる人間による検証が必要となる。ユーザーの好みと整合性の高い評価基準と実装を生成するための混合主導型アプローチを提案する。
Abstract
本研究では、LLMを使った出力評価の人間との整合性を保つための混合主導型アプローチを提案している。
LLMを使って評価基準を自動生成し、ユーザーが修正できるようにする
ユーザーに一部の出力をグレードさせ、その結果に基づいて最も整合性の高い評価実装を選択する
ユーザーのグレードと評価実装の整合性を可視化し、フィードバックを得る
研究の主な発見点は以下の通り:
ユーザーは自動生成された評価基準を有用だと感じるが、必要に応じて修正したいと考えている
ユーザーは出力をグレードしながら評価基準を定義・修正するという「基準のドリフト」が起こる
評価基準の定義と出力のグレードは相互に依存しており、ユーザーはこの循環に悩む
ユーザーは評価実装の種類(コードベースかLLMベース)によって整合性の判断が異なる
これらの発見から、LLMを使った出力評価の支援ツールには、ユーザーの好みと整合性の高い評価基準と実装を反復的に生成・選択できる機能が必要であることが示唆される。
Stats
本研究では84件の医療関連の会話録音データと100件のAmazonの製品レビューデータを使用した。
医療データの場合、68%の出力が良好であり、製品データの場合は51%の出力が良好であった。
Quotes
"This is how I would want a workflow to assist me in evals—basically I want the AI to do 80% of it, and there can be escape hatches if the AI fails."
"I get writer's block when thinking about what assertions to write, so this is great."
"you should enforce that we all look at at least 20 examples first."