本論文では、マルチモーダル大規模言語モデル(MLLM)の人間の価値観との整合性を包括的に評価するためのデータセット「Ch3Ef」と評価戦略を提案している。
Ch3Ef データセットは、「有益性」「誠実性」「無害性」の3つの原則に基づき、12のドメインと46のタスクから構成される。1002の人手アノテーションされたサンプルが含まれ、実世界の状況を忠実に反映するよう設計されている。
評価戦略は、「命令」「推論器」「メトリクス」の3つのモジュールから成り、A1(意味的整合性)からA3(人間の価値観との整合性)までの幅広いシナリオを評価できる。
評価の結果、10以上の重要な知見が得られた。MLLMの能力、限界、評価レベル間の複雑な関係性について理解を深めることができ、今後の発展につながる。
本研究は、MLLMの人間の価値観との整合性評価における重要な基盤を提供するものである。今後、新たな課題や応用分野の出現に合わせて、データセットや評価手法の拡張が期待される。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы