核心概念
視覚と言語モデルは、文字の音声的特徴と視覚的意味の間に非自明な関連性を学習している。
要約
本研究では、視覚と言語モデルにおける音象徴性の存在を調査した。
具体的には以下の通り:
- 人間の知覚実験で知られる「キキ-ボウバ効果」を参考に、子音と母音の音声的特徴の違いを反映した疑似語を作成した。
- これらの疑似語をCLIPとStable Diffusionのモデルに入力し、視覚的な「鋭さ」や「丸みさ」といった意味との関連性を分析した。
- 疑似語の音声的特徴と視覚的意味の関係を表す指標を定義し、モデルの得点を計算した。
- 得られた指標は、人間の知覚実験の結果とよく一致しており、モデルが音象徴性を学習していることが示された。
- さらに、モデルが学習した音声-視覚の関連性は、英語の基本語彙にも反映されていることが明らかになった。
以上より、視覚と言語モデルは、言語の音声的特徴と視覚的意味の関係を捉えていることが明らかになった。この知見は、人間の言語習得過程の理解や、モデルの解釈可能性の向上に役立つと考えられる。
統計
「鋭い」形状を表す疑似語は、より「鋭い」画像を生成する傾向がある。
「丸い」形状を表す疑似語は、より「丸い」画像を生成する傾向がある。
「鋭さ」や「丸みさ」を表す形容詞は、疑似語の音声的特徴と強く関連している。
引用
「言語における音と意味の対応は、ほとんど任意的であると考えられてきた。」
「しかし、認知科学の研究では、言語間や人口集団間で、特定の音と意味の間に非自明な相関関係が存在することが示されている。これは音象徴性と呼ばれる現象である。」