toplogo
Sign In

Modellierung sprachabhängiger Übertragungscharakteristiken der eigenen Stimme für Hearables mit In-Ohr-Mikrofonen


Core Concepts
Die Übertragungscharakteristiken der eigenen Stimme zwischen einem Mikrofon am Eingang des verschlossenen Gehörgangs und einem In-Ohr-Mikrofon hängen vom Sprachinhalt und vom individuellen Sprecher ab. Ein sprachabhängiges Modell ermöglicht eine genauere Simulation von In-Ohr-Signalen als ein sprachunabhängiges Modell, insbesondere bei Unterschieden zwischen Äußerungen und Sprechern.
Abstract

Der Artikel präsentiert Methoden zur Modellierung der Übertragungscharakteristiken der eigenen Stimme zwischen einem Mikrofon am Eingang des verschlossenen Gehörgangs und einem In-Ohr-Mikrofon in Hearables.

Es werden drei Modellansätze untersucht:

  1. Ein sprachunabhängiges individuelles Modell, das eine zeitinvariante relative Übertragungsfunktion (RTF) für jeden Sprecher annimmt.
  2. Ein sprachabhängiges individuelles Modell, das eine unterschiedliche RTF für jedes Phonem annimmt.
  3. Talker-gemittelte Versionen der beiden vorherigen Modelle.

Zusätzlich wird ein adaptives Filter-basiertes Modell betrachtet, das äußerungsspezifisch ist.

Die Modelle werden anhand von Aufnahmen mit einem Hearable-Prototypen evaluiert. Die Ergebnisse zeigen, dass das sprachabhängige Modell die In-Ohr-Signale genauer simulieren kann als das sprachunabhängige Modell, insbesondere bei Unterschieden zwischen Äußerungen und Sprechern. Talker-gemittelte Modelle generalisieren besser auf unbekannte Sprecher als individuelle Modelle.

edit_icon

Customize Summary

edit_icon

Rewrite with AI

edit_icon

Generate Citations

translate_icon

Translate Source

visual_icon

Generate MindMap

visit_icon

Visit Source

Stats
Die Übertragungscharakteristiken der eigenen Stimme zwischen dem Mikrofon am Eingang des verschlossenen Gehörgangs und dem In-Ohr-Mikrofon weisen im Frequenzbereich unter ca. 1 kHz eine Verstärkung und im Bereich über ca. 2 kHz eine starke Dämpfung auf. Die Übertragungscharakteristiken für verschiedene Vokale können durch eine lineare Kombination ihrer Formantfrequenzen vorhergesagt werden, wobei geschlossene vordere Vokale den größten Verschlusseffekt aufweisen.
Quotes
"Die Übertragungscharakteristiken der eigenen Stimme zwischen einem Mikrofon am Eingang des verschlossenen Gehörgangs und einem In-Ohr-Mikrofon hängen vom Sprachinhalt und vom individuellen Sprecher ab." "Ein sprachabhängiges Modell ermöglicht eine genauere Simulation von In-Ohr-Signalen als ein sprachunabhängiges Modell, insbesondere bei Unterschieden zwischen Äußerungen und Sprechern."

Deeper Inquiries

Wie könnte man die Modellierung der Übertragungscharakteristiken weiter verbessern, um eine noch genauere Simulation der In-Ohr-Signale zu erreichen?

Um die Modellierung der Übertragungscharakteristiken für eine genauere Simulation der In-Ohr-Signale zu verbessern, könnten verschiedene Ansätze verfolgt werden: Berücksichtigung von nichtlinearen Effekten: Die aktuellen Modelle basieren auf linearen Filtern, die möglicherweise nicht alle Effekte vollständig erfassen. Die Integration von nichtlinearen Effekten, wie z.B. nichtlinearen Verzerrungen im Übertragungspfad, könnte die Genauigkeit der Simulation verbessern. Erweiterung der Modellkomplexität: Durch die Verwendung komplexerer Modelle, z.B. nichtlineare Filter oder neuronale Netzwerke, könnte eine genauere Modellierung der komplexen Übertragungscharakteristiken erreicht werden. Integration von zusätzlichen Parametern: Die Einbeziehung weiterer Parameter, die die individuellen anatomischen Unterschiede oder spezifischen Eigenschaften des Trägers berücksichtigen, könnte zu einer präziseren Modellierung führen. Verfeinerung der Datenerfassung: Durch die Aufnahme von umfangreicheren Datensätzen unter verschiedenen Bedingungen und mit verschiedenen Sprechern könnten die Modelle besser trainiert und genauer gemacht werden. Feedback-Schleifen für Modellanpassungen: Die Implementierung von Feedback-Schleifen, die die Leistung der Modelle anhand von realen In-Ohr-Signalen bewerten und die Modelle entsprechend anpassen, könnte zu einer kontinuierlichen Verbesserung der Genauigkeit führen.

Wie könnte man die vorgestellten Modelle nutzen, um die Qualität von Sprachsignalen aus In-Ohr-Mikrofonen zu verbessern?

Die vorgestellten Modelle könnten auf verschiedene Weisen genutzt werden, um die Qualität von Sprachsignalen aus In-Ohr-Mikrofonen zu verbessern: Eigenes Sprachsignal-Verbesserungsalgorithmen: Die Modelle könnten als Grundlage für die Entwicklung von Algorithmen zur Verbesserung von Eigenstimmsignalen in In-Ohr-Mikrofonen dienen. Durch die präzise Simulation der In-Ohr-Signale könnten diese Algorithmen gezielt Rauschen reduzieren, die Bandbreite erweitern oder die Klangqualität optimieren. Training von KI-Modellen: Die Modelle könnten verwendet werden, um synthetische Trainingsdaten für KI-Modelle zur Eigenstimmsignalrekonstruktion zu generieren. Dies würde die Datengrundlage für die KI-Modelle erweitern und ihre Leistung verbessern. Aktive Geräuschunterdrückung: Die Modelle könnten in aktiven Geräuschunterdrückungsalgorithmen eingesetzt werden, um die Übertragungspfade zwischen Lautsprecher und Mikrofonen zu modellieren und gezielt Störgeräusche zu reduzieren. Anpassung an individuelle Träger: Durch die Berücksichtigung individueller anatomischer Unterschiede könnten die Modelle personalisiert werden, um die Qualität der Sprachsignale für jeden Träger zu optimieren. Durch die Anwendung der vorgestellten Modelle auf diese Weise könnte die Qualität von Sprachsignalen aus In-Ohr-Mikrofonen signifikant verbessert werden.

Welche Auswirkungen hätte eine Berücksichtigung von nichtlinearen Effekten in den Modellen?

Die Berücksichtigung von nichtlinearen Effekten in den Modellen könnte mehrere Auswirkungen haben: Genauere Modellierung: Nichtlineare Effekte, wie z.B. nichtlineare Verzerrungen im Übertragungspfad, könnten genauer erfasst werden, was zu einer präziseren Modellierung der Übertragungscharakteristiken führt. Verbesserte Simulation: Die Simulation der In-Ohr-Signale würde realistischer werden, da nichtlineare Effekte die tatsächlichen Signalverzerrungen und -änderungen besser widerspiegeln würden. Erweiterte Anpassungsfähigkeit: Die Modelle könnten flexibler und anpassungsfähiger werden, da sie auch komplexere Effekte berücksichtigen könnten, die in realen In-Ohr-Signalen auftreten. Höhere Leistungsfähigkeit: Durch die Integration nichtlinearer Effekte könnten die Modelle leistungsfähiger werden und eine bessere Leistung bei der Rauschunterdrückung, Klangoptimierung und Bandbreitenerweiterung bieten. Insgesamt könnte die Berücksichtigung von nichtlinearen Effekten die Modellierung der Übertragungscharakteristiken verbessern und zu einer genaueren Simulation der In-Ohr-Signale führen.
0
star