Core Concepts
Die Kombination von Multimodal Orofacial Neural Audio (MONA) und Large Language Model Integrated Scoring Adjustment (LISA) verbessert die stille Spracherkennung signifikant.
Abstract
Einleitung:
SSIs bieten nicht-invasive Kommunikationsmöglichkeiten.
Herausforderungen: fehlende phonetische Informationen, begrenzte Datensätze.
Verwandte Arbeit:
Historische Herausforderungen und Fortschritte in SSIs.
Technologische Ansätze: Gehirnimplantate, Lippenlesen, Ultraschall, etc.
Problemstellung:
SSIs bieten neue Kommunikationsmöglichkeiten für Menschen mit Sprachstörungen.
Ziel: Erreichen eines WER von 15% für die praktische Anwendbarkeit.
Ansatz:
Einführung von crossCon und supTcon für stille und vokalisierte Sprache.
Verwendung von LLM für die Punkteanpassung.
Ergebnisse:
MONA LISA erreicht einen WER von 12,2% für stille EMG und 3,7% für vokales EMG.
Diskussion:
Potenzielle Anwendungen, ethische Überlegungen und zukünftige Forschungsrichtungen.
Stats
MONA LISA reduziert den WER von 28,8% auf 12,2% in Benchmark-Datensätzen.
LISA verbessert den WER von 9,8% auf 8,9% in Brain-to-Text 2024.
Quotes
"Unsere Arbeit hat einen WER unter dem kritischen Schwellenwert von 15% erreicht."
"MONA LISA eröffnet neue Möglichkeiten in der Mensch-Computer-Interaktion."