I2EBenchは、指示ベースの画像編集モデルの性能を包括的に評価するためのベンチマークである。
高水準編集評価では、指示の理解度と特定領域の編集精度を8つの次元で評価する。低水準編集評価では、全体的な編集と詳細な画像処理を8つの次元で評価する。
データセットには2,000枚以上の画像と4,000枚以上の指示が含まれ、人間による注釈が付けられている。また、ChatGPTを使って指示の多様性を高めている。
自動評価と人間評価の相関分析から、I2EBenchの評価結果が人間の知覚と整合していることが確認された。
各モデルの長所と短所を分析した結果、単一のモデルが全ての次元で優れているわけではなく、指示の多様性にも脆弱性があることが明らかになった。これらの知見は、今後のモデル開発に役立つ。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы