Core Concepts
自己教師学習の対照的フレームワークにおいて付加マージンを導入することで、スピーカー間の分離性を高め、スピーカー認証の性能を向上させることができる。
Abstract
本研究では、自己教師学習の対照的フレームワークにおいて付加マージンを導入したNT-Xent-AMロスを提案し、その有効性を示した。
主な内容は以下の通り:
対照的自己教師学習フレームワークであるSimCLRとMoCo において、対称的な対照的ロスと付加マージンを導入することで、スピーカー認証の性能を向上させることができる。
付加マージンを導入することで、同一スピーカーの埋め込みの凝集性が高まり、偽陰性と偽陽性が減少する。
クラスの衝突は自己教師学習の文脈では問題とならず、付加マージンを適用できることを示した。
提案手法はVoxCeleb1-Oデータセットにおいて7.85%のEERを達成し、他の同等の手法を上回る性能を示した。
Stats
同一スピーカーの埋め込みの距離を小さくし、異なるスピーカーの埋め込みの距離を大きくするという制約を学習することで、スピーカー認証の性能が向上する。
付加マージンを導入することで、同一スピーカーの埋め込みの凝集性が高まり、偽陰性と偽陽性が減少する。
Quotes
"Additive Margin in Contrastive Self-Supervised Frameworks to Learn Discriminative Speaker Representations"
"We explore different ways to improve the performance of these techniques by revisiting the NT-Xent contrastive loss. Our main contribution is the definition of the NT-Xent-AM loss and the study of the importance of Additive Margin (AM) in SimCLR and MoCo SSL methods to further separate positive from negative pairs."