本研究では、Mambaエンコーダを活用したストリーミング音声認識モデルを提案する。また、単一モーダル集約(UMA)フレームワークを導入し、トークン境界の明示的な検出と特徴フレームの統合を行うことで、高精度かつ低遅延のストリーミング音声認識を実現する。