CTCを活用することで、音響エンコーダがスピーカーごとに異なる時間領域に音声を表現することを発見した。この洞察に基づき、スピーカー分離を明示的にモデル化したSpeaker-Aware CTCを提案し、SOTベースのマルチスピーカー音声認識モデルに統合することで、従来のSOT-CTCモデルを大幅に改善できることを示した。