音声信号に基づいて多様な3Dフェイシャルモーションを合成するために、ベクトル量子化された潜在空間からの多様なコードクエリを提案する。
音声認識機能を暗黙的に内部化することで、音声対話型LLMの応答生成の効率化と性能向上を実現する。
大規模言語モデルにピンイン-文字変換のプリトレーニングを行うことで、音声特徴を理解し、対応する文字列を生成する能力が向上する。さらに、大量の補助テキストデータを活用することで、低リソース環境での音声認識タスクの性能をさらに向上させることができる。
高齢者の自宅における日常生活の音響環境を捉えた大規模なデータセットを提供し、音響イベント検出のための研究を支援する。プライバシー保護のため、音声部分を自動的に除去している。
本研究は、音声-テキスト検索(ATR)タスクを生成的モデリングの観点から取り組み、拡散モデルを用いて音声とテキストの関係を表現する新しいフレームワークDiffATRを提案する。DiffATRは、ノイズから徐々に音声とテキストの共同分布を生成することで、従来の識別的アプローチの限界を克服する。
提案手法は、変換器ベースの階層的アラインメントモジュールと分離された cross-modal 表現アプローチを組み合わせることで、音声とテキストの細粒度な対応関係を捉え、音声-テキスト検索の性能を大幅に向上させる。
音声名称エンティティ認識システムの性能向上には、多言語間の転移学習が有効である。特に、リソースの乏しい言語に対して、リソースの豊富な言語からの知識移転が有効である。
現在の音声対話大規模言語モデルは、話者の音声特徴を十分に活用できず、対話内容の文脈情報のみに頼って質問に答えている。
歌鳥は、発声の目標から逸脱した場合でも、直接的な感覚フィードバックなしでも、その目標に向けて発声を修正することができる。
健康情報のオーディオ配信において、強調と休止の追加は情報の理解度と記憶に影響を与える。正しい位置への強調の追加は難易度の高い情報の理解度を高めるが、休止の追加は理解度を低下させる一方で記憶を向上させる。