核心概念
大規模言語モデルLlama3を用いて音声コマンドを解釈し、物品の拾い上げと配達を含む複雑なタスクを自律的に実行するシステムを提案する。
要約
本研究では、音声ガイド型シーケンシャルプランニングを用いた自律ナビゲーションシステムを提案している。このシステムは2つのモジュールから構成される:
-
自然言語理解(NLU)モジュール:
- 音声入力をテキストに変換し、Llama3言語モデルを用いて拾い上げ場所、配達場所、拾い上げ品目を抽出する。
- 正規表現を使ってこれらの情報をパースする。
-
タスク割り当てと実行モジュール:
- 有限状態機械(FSM)を使ってシンプルなタスクを処理する。
- 複雑なタスクには階層的タスクプランナーを使う。
- 静的環境ではROS2-Nav2ナビゲーションスタック、人が多数いる環境ではDRL-VOナビゲーションアルゴリズムを使う。
実験では、Turtlebot3、Turtlebot2、Jackal UGVの3つのロボットプラットフォームを使い、シミュレーション環境と実環境の両方で評価を行った。これらの実験により、提案システムの柔軟性と実用性が示された。
統計
音声コマンド解釈の正解率は84.37%であった。
冠詞の使用がNLUシステムを混乱させる傾向があった。