本研究では、ロボットの言語学習のためのニューラルネットワークモデルを提案している。このモデルは、ロボットの行動と言語の記述を双方向に結び付けることができる。
まず、単純なオブジェクト操作シナリオにおいて、ロボットの行動と言語の記述を双方向に結び付ける「対ペア変分オートエンコーダ(PVAE)」モデルを提案している。PVAEは、標準的なオートエンコーダよりも優れた一対多の行動-言語変換を可能にする。また、視覚特徴抽出の際にチャンネル分離を行うことで、オブジェクトの色の認識精度が向上することを示している。
次に、PVAE-BERTを提案し、大規模な事前学習言語モデルであるBERTを組み込むことで、事前定義された記述以外の自然言語命令にも対応できるようにしている。実験の結果、PVAE-BERTは、人間ユーザからの制限のない指示にも対応できることが示された。
toiselle kielelle
lähdeaineistosta
arxiv.org
Syvällisempiä Kysymyksiä