本論文は、分散型IoTオーディオネットワークにおける実時間の話者ダイアライゼーションに適した、高精度かつ低計算コストのメカニズムを提案している。
主な内容は以下の通り:
フェデレーティッド学習に基づく話者ダイアライゼーションフレームワークを提案した。各クライアントデバイスは独自のオーディオデータを使って話者識別モデルをトレーニングし、近隣デバイスと共有することで全体の性能を向上させる。
話者セグメンテーションには、ベイズ情報量基準(BIC)とホテリングのt2乗統計量を組み合わせた手法を提案した。これにより、見逃し検出率と誤検出率のトレードオフを改善し、計算コストも削減できる。
話者クラスタリングには、BICに基づくグリーディーな手法を提用いた。これにより、個々のセグメントを識別するのではなく、類似したセグメントをまとめて識別することで計算負荷を大幅に削減できる。
フェデレーティッド学習モデルのオンラインアップデートには、話者エンベディングのコサイン類似度を利用した手法を提案した。これにより、事前の大規模なトレーニングデータなしでも、会話の進行に合わせて精度を向上できる。
実際の会話データを使った評価実験により、提案手法が中央集権型の手法と同等の性能を達成できることを示した。特に、非IIDデータ環境下でも頑健な性能を発揮することが確認された。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Amit Kumar B... a las arxiv.org 04-18-2024
https://arxiv.org/pdf/2404.10842.pdfConsultas más profundas