Core Concepts
事前学習された大規模言語モデル(LLMs)、マルチモーダルビジュアル言語モデル(VLMs)、および音声認識(SR)モデルを活用して、人間が自律エージェントと自然に対話することを可能にする新しいアプローチを提案します。
Abstract
ABSTRACT:
人間が自律エージェントと自然に対話する方法を拡張する方法について述べられています。
事前学習された大規模言語モデル(LLMs)、マルチモーダルビジュアル言語モデル(VLMs)、および音声認識(SR)モデルの能力を活用しています。
フレームワークは87.55%の音声コマンド解読精度、86.27%のコマンド実行成功率、平均待機時間0.89秒を達成しました。
INTRODUCTION:
現存のアプローチは複雑なテレオペレーションコントローラーや厳格なコマンドプロトコルに支配されています。
自然で直感的なインタラクションメカニズムへの需要が高まっています。
RELATED WORK:
過去の研究では、音声指示をロボットシステムに組み込むことが探求されてきました。
以前のフレームワークは完全な自然さが欠けていると指摘されています。
METHOD:
提案されたフレームワークは5つの主要コンポーネントから構成されており、音声会話理解パイプラインも含まれています。
EXPERIMENTS:
実世界およびシミュレーション実験が行われ、フレームワークのパフォーマンスが検証されました。
ログ記録から得られた統計的結果はVCUAやNSRなどで示されます。
CONCLUSION AND FUTURE WORK:
LLMs、VLMs、およびSRモデルの能力を活用して人間とロボットの相互作用を向上させるフレームワークが紹介されました。
将来的な取り組みでは、環境雑音の影響に耐えるためにフレームワークを改良することが計画されています。
Stats
参加者数:5名(平均年齢27歳±3歳)
音声コマンド理解精度:87.55%
コマンド実行成功率:86.27%
平均応答時間:0.89秒