事前学習された大規模言語モデル(LLMs)、マルチモーダルビジュアル言語モデル(VLMs)、および音声認識(SR)モデルを活用して、人間が自律エージェントと自然に対話することを可能にする新しいアプローチを提案します。