本研究では、大規模言語モデルを行動認識器として活用する新しいフレームワークLLM-ARを提案している。
まず、入力のスケルトンシーケンスを「行動文」という形式に変換するための言語的射影プロセスを導入する。
この際、生成された「行動文」が人間の言語的特性に沿うよう、Zipfの法則やコンテキスト依存性などの人間の帰納バイアスを考慮した学習戦略を組み込む。
さらに、スケルトンの木構造を表現するためにハイパーボリック符号化を導入する。
最後に、事前学習された大規模言語モデルの重みを固定したままで、低ランク適応(LoRA)を用いて「行動文」の理解を促進する。
これにより、大規模言語モデルの豊富な事前知識を保持しつつ、高精度な行動認識を実現できる。
広範な実験結果により、提案手法の有効性が示されている。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問