核心概念
Estuaryは、最新の生成AI技術とオフクラウド機能を組み合わせることで、遅延の少ないリアルタイムな社会インタラクティブエージェント(SIA)の開発を容易にする、柔軟で拡張性の高いフレームワークである。
研究概要
本稿は、ACM Intelligent Virtual Agents (IVA) 2024 Conference に採択された論文のプレプリント版であり、リアルタイム社会インタラクティブエージェント(SIA)開発のための新しいフレームワークであるEstuaryについて詳述している。
研究目的
近年、生成AI技術、特に大規模言語モデル(LLM)の発展により、より人間らしい振る舞いをするSIAの開発が可能になった。しかし、既存のSIAフレームワークは、リアルタイム性、マルチモーダル性、オフクラウド機能などの点で限界があり、最新のAI技術の恩恵を十分に受けていない。そこで本研究では、これらの課題を解決するために、Estuaryと呼ばれる新しいSIAフレームワークを提案する。
手法
Estuaryは、モジュール性と相互運用性を重視した設計を採用しており、音声認識、音声合成、対話管理、LLMなどの様々なマイクロサービスをシームレスに統合できる。また、SocketIOプロトコルを用いた分散型アーキテクチャを採用することで、HMDなどのクライアントデバイスとホストデバイス間の低遅延な通信を実現している。さらに、オフクラウドでの動作をサポートしており、プライバシー保護と応答時間の短縮を両立させている。
主な結果
Estuaryを用いることで、開発者は、最新のAIモデルを活用した、リアルタイムでマルチモーダルなインタラクションが可能なSIAを容易に構築できる。また、オフクラウド機能により、プライバシー保護と応答時間の短縮を実現できる。
結論
Estuaryは、SIA研究のための強力なツールであり、今後、より人間らしい振る舞いをするSIAの開発を促進することが期待される。
意義
Estuaryは、SIA研究における重要な課題を解決する、柔軟で拡張性の高いフレームワークである。オフクラウド機能は、プライバシー保護の観点からも注目に値する。
限界と今後の研究
現時点では、Estuaryはテキストと音声データストリームに焦点を当てているが、将来的にはビデオデータにも対応する予定である。また、より複雑な社会インタラクションをシミュレートするための、新たなAIモデルやマイクロサービスの統合も期待される。
統計
ChatGPT-4oの平均レイテンシは2.8秒である。
Estuaryを用いた場合、FasterWhisperBase.EN →GPT-3.5 API →XTTSのパイプラインで、ユーザーの発話終了からSIAの音声合成モジュールからの最初の発話までの時間は約1.2〜2.5秒である。