Dieser Artikel untersucht die Leistung von Named Entity Recognition (NER)-Systemen bei der Anwendung auf verrauschte Audiotranskripte im biomedizinischen Bereich. Die Autoren stellen einen neuartigen Datensatz namens BioASR-NER vor, der fast 2.000 saubere und verrauschte Aufnahmen umfasst. Um die Herausforderung des Rauschens anzugehen, präsentieren sie eine innovative Methode zur Transkriptbereinigung unter Verwendung von GPT4, wobei sowohl Zero-Shot- als auch Few-Shot-Ansätze untersucht werden.
Die Ergebnisse zeigen, dass die Leistung der NER-Systeme auf den verrauschten Transkripten deutlich abfällt, aber durch den Einsatz von GPT4 zur Bereinigung der Transkripte erheblich verbessert werden kann. Die Zero-Shot-Methode führt zu einer durchschnittlichen Verbesserung des Micro-F1-Werts um 14 Prozentpunkte, während der Few-Shot-Ansatz eine zusätzliche Verbesserung von 3 Prozentpunkten erzielt. Die Autoren führen eine detaillierte Fehleranalyse durch, um die Arten von Fehlern zu verstehen, die von der Transkriptionssoftware, den Korrekturen durch GPT4 und den verbleibenden Herausforderungen für GPT4 verursacht werden.
Insgesamt zielt dieser Beitrag darauf ab, das Verständnis und mögliche Lösungen für die ASR-NLP-Lücke im biomedizinischen Bereich zu fördern, um die Dokumentationspraktiken im Gesundheitswesen zu verbessern.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Nima Ebadi,K... alle arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17363.pdfDomande più approfondite