Der Artikel beschreibt die Beiträge des Labors LIA zum Bereich der Sprecherverifikation. Diese Beiträge heben zwei weitere Herausforderungen neben der Kurzzeitigkeit und der Sprache hervor: die Diskrepanz zwischen Anmelde- und Testdaten sowie die Diskrepanz zwischen Teilmengen des Evaluierungstestdatensatzes.
Der Artikel beginnt mit einer Einführung in die SdSv-Challenge Task 2, die eine Möglichkeit bot, die Effizienz und Robustheit moderner textunabhängiger Sprecherverifikationssysteme zu bewerten. Es wird auch erläutert, wie die Verfügbarkeit eines relativ großen und etikettierten In-Domain-Datensatzes es ermöglicht, die Sprachanpassung auch in das überwachte Lernen eines DNN-basierten Merkmalsextraktors einzubeziehen.
Anschließend wird das vorgeschlagene asymmetrische Vier-Kovarianz-Modell (4-Cov) beschrieben, das zwei separate PLDA-Modelle für Anmelde- und Testdaten verwendet und eine lineare Beziehung zwischen ihren Sprecherfaktoren herstellt, um den Unterschied zwischen den Verteilungen zu berücksichtigen. Darüber hinaus wird eine spezifische Scorenormalisierung vorgestellt, die an das asymmetrische Modell angepasst ist.
Schließlich wird ein versuchsabhängiges Modell präsentiert, das die 4-Cov-Modellierung auf die verschiedenen Arten von Diskrepanzen zwischen Anmelde- und Testdaten in Bezug auf Dauer und Sprache anwendet.
Die Relevanz und Effizienz der verschiedenen Beiträge werden durch die Ergebnisse auf der SdSv-Auswertung deutlich belegt.
To Another Language
from source content
arxiv.org
Дополнительные вопросы