本研究では、ビジョン言語モデルの日本語能力を評価するための新しいベンチマーク「Heron-Bench」を提案している。Heron-Benchは、日本の文化的背景を反映した102の画像-質問ペアから構成されている。
Heron-Benchの構築プロセスは以下の通り:
Heron-Benchを用いて、閉鎖型モデルのGPT-4Vと公開型モデルを評価した。結果、GPT-4Vが全体的に高い性能を示したが、公開型モデルの中にはサブカテゴリによって強みを発揮するものもあった。特に、日本の文化的背景を反映したカテゴリでは、Heron GITが良好な結果を得た。
一方で、LLaVA-Benchなどの既存の英語ベンチマークでは公開型モデルの性能が高く評価されるが、Heron-Benchでは大幅に低下する傾向が見られた。これは、日本語理解の課題を適切に捉えられていないことを示唆している。
Heron-Benchの提案により、ビジョン言語モデルの日本語能力を正確に評価し、今後の研究開発に役立てることができる。また、本研究で開発したHeron GITモデルも、日本語ビジョン言語モデルの基準となる。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies