核心概念
文化的要素を抽出し、それらを反映したキャプションを生成する
摘要
本研究では、文化的要素を含むキャプションを生成するための新しいフレームワーク「Culturally-aware Image Captioning (CIC)」を提案しています。
CICでは以下の3つのステップを行います:
- 文化カテゴリに基づいた質問を生成する
- 生成した質問を用いてVisual Question Answering (VQA)を行い、文化的視覚要素を抽出する
- 抽出した文化的要素を用いて、Large Language Model (LLM)によって文化に配慮したキャプションを生成する
この方法により、従来のイメージキャプショニングモデルでは捉えきれなかった文化的要素を含むキャプションを生成することができます。
人間評価の結果、CICが生成したキャプションは、4つの文化グループ(西洋、南アジア、アフリカ、東アジア)の参加者から高い評価を得ました。
これは、CICが文化的要素を適切に抽出し、それを反映したキャプションを生成できていることを示しています。
統計資料
建築物の様式は伝統的なケニアスタイルである
人物が着用している服装は伝統的なアジアの服装である
食事に使われている食べ物は伝統的なアジアの料理である
演奏されている楽器は伝統的なアジアの楽器である
建物の外観は伝統的なアフリカの建築様式である
引述
"CICフレームワークは、文化的要素を抽出し、それらを反映したキャプションを生成することができる。"
"CICの人間評価の結果、4つの文化グループの参加者から高い評価を得た。"
"CICは従来のイメージキャプショニングモデルでは捉えきれなかった文化的要素を含むキャプションを生成することができる。"