本研究では、ニューラル言語モデルにビジュアルグラウンディングを導入し、単語意味の学習効率を検証した。具体的には以下の結果が得られた:
ビジュアルグラウンディングを用いたモデルは、限られたデータ環境では単語の意味的関係性や意味的特徴の学習において、言語のみのモデルよりも優れた性能を示す。
しかし、この効果は大規模なデータ環境では見られず、むしろ言語のみのモデルの方が優れた性能を示す。
ビジュアルグラウンディングとテキストの共起情報を組み合わせたモデルでは、これらの情報源を効果的に統合できず、言語のみのモデルと同等かそれ以下の性能しか得られない。
ビジュアルグラウンディングは具体的な単語の学習に有効だが、抽象的な単語や動詞の学習には限界がある。
現在の多モーダルモデルでは、ヒトのような効率的な単語意味の学習を実現するには至っていない。新たな学習メカニズムの開発が必要である。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania