本研究では、対話における発話に同期したジェスチャーの表現を学習するために、自己教師あり学習の手法を提案している。
まず、発話音声と骨格情報を入力とする2つのバックボーンモデルを用意する。これらのモデルは、自己教師あり学習の目的関数を最適化することで、発話と同期したジェスチャーの表現を学習する。
具体的には、ユニモーダルな目的関数と、発話と骨格情報を組み合わせたマルチモーダルな目的関数を組み合わせて使用する。
この手法を、対話における代表的なアイコニックジェスチャーを含むデータセットに適用し、内部評価を行った。その結果、学習した表現が、人手で注釈されたジェスチャーの類似度と高い相関を示すことが分かった。さらに、プローブ分析により、学習した表現が、ジェスチャーの形態的特徴を一定程度エンコードしていることが明らかになった。
これらの結果から、提案手法は、対話におけるジェスチャー分析に有用な表現を学習できることが示された。
翻譯成其他語言
從原文內容
arxiv.org
深入探究