本研究は、共話ジェスチャーの検出を多相的な系列ラベリング問題として捉え直し、TransformerエンコーダーとCRFを用いた新しいフレームワークを提案する。これにより、ジェスチャーの準備相、ストローク相、引き込み相といった細かな動きの特徴を捉えることができ、従来の二値分類アプローチを大きく上回る性能を示す。