Dieser Artikel untersucht die Leistung von Named Entity Recognition (NER)-Systemen bei der Anwendung auf verrauschte Audiotranskripte im biomedizinischen Bereich. Die Autoren stellen einen neuartigen Datensatz namens BioASR-NER vor, der fast 2.000 saubere und verrauschte Aufnahmen umfasst. Um die Herausforderung des Rauschens anzugehen, präsentieren sie eine innovative Methode zur Transkriptbereinigung unter Verwendung von GPT4, wobei sowohl Zero-Shot- als auch Few-Shot-Ansätze untersucht werden.
Die Ergebnisse zeigen, dass die Leistung der NER-Systeme auf den verrauschten Transkripten deutlich abfällt, aber durch den Einsatz von GPT4 zur Bereinigung der Transkripte erheblich verbessert werden kann. Die Zero-Shot-Methode führt zu einer durchschnittlichen Verbesserung des Micro-F1-Werts um 14 Prozentpunkte, während der Few-Shot-Ansatz eine zusätzliche Verbesserung von 3 Prozentpunkten erzielt. Die Autoren führen eine detaillierte Fehleranalyse durch, um die Arten von Fehlern zu verstehen, die von der Transkriptionssoftware, den Korrekturen durch GPT4 und den verbleibenden Herausforderungen für GPT4 verursacht werden.
Insgesamt zielt dieser Beitrag darauf ab, das Verständnis und mögliche Lösungen für die ASR-NLP-Lücke im biomedizinischen Bereich zu fördern, um die Dokumentationspraktiken im Gesundheitswesen zu verbessern.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問