この研究では、視覚的質問応答モデルを使って、機能語の意味を学習する過程を調べています。主な発見は以下の通りです:
視覚的に接地された言語を使って訓練されたモデルは、空間的推論、数的推論、論理的推論を必要とする機能語の意味を表現することができます。しかし、これらの意味表現は文脈に依存した勾配的なものになる傾向があり、単純な閾値では捉えきれません。
モデルは、代替表現を考慮することで、機能語の意味を解釈することができます。これは、語用論的推論を行うことを示唆しています。
機能語の習得順序は、入力データの頻度に依存する部分もありますが、概念的な要因も影響していることが示唆されます。
全体として、この研究は、複雑な推論スキルを必要とする機能語の意味が、符号化された事前知識なしでも、一般的な統計的学習メカニズムによって学習可能であることを示唆しています。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询