Core Concepts
大規模言語モデルを注釈者として扱い、注釈ラベルの変動性を活用することで、個々のモデルよりも優れた予測性能が得られる。
Abstract
本研究では、4つの最新の命令チューニング済み大規模言語モデルを注釈者として扱い、5つの主観的な分類タスクにおける性能を評価しました。ゼロショット学習とフューショット学習の設定で実験を行い、モデル間の注釈ラベルの変動性を分析しました。
結果として以下が明らかになりました:
モデル間で得意分野が異なり、専門化が見られた。これは注釈ラベルの集約が有効であることを示唆しています。
注釈ラベルの集約手法(多数決、MACE)は、個々のモデルよりも優れた性能を示しました。
フューショット学習は、ゼロショット学習ほど安定した性能を示しませんでした。適切な事例選択が難しいためと考えられます。
大規模言語モデルの注釈付与能力は、単純な教師あり学習モデルには及びませんでした。
以上より、大規模言語モデルの注釈付与能力は有望ですが、教師あり学習には及ばず、注釈の質や倫理的な側面でも課題があることが示唆されました。
Stats
注釈ラベルの集約は個々のモデルよりも平均4.2 F1ポイント優れていた。
教師あり学習モデルと比べると平均10.5 F1ポイント低かった。
Quotes
"異なるアノテータには異なる強みがあり(または信頼性のレベルが異なり)、最近の研究では、このような人間のラベル変動を利点として活用することを提案している。"
"ラベル集約の手法は、個々のモデルよりも頑健であり、各モデルの専門性を活用できることが示唆された。"
"大規模言語モデルの注釈付与能力は、単純な教師あり学習モデルには及ばず、注釈の質や倫理的な側面でも課題がある。"