Die Studie beschreibt die Einreichung des SEME-Teams für die Aufgabe 2 von SemEval-2024: Sichere biomedizinische natürliche Sprachanalyse für klinische Studien. Die Aufgabe besteht darin, die Konsistenz und Genauigkeit von Modellen zur natürlichen Sprachanalyse (NLI) auf Daten aus klinischen Studienberichten zu bewerten.
Das Team testete zwei Ansätze: Zum einen das Finetuning und Ensembling von maskierten Sprachmodellen und zum anderen das Prompting von großen Sprachmodellen unter Verwendung von Techniken wie Chain-Of-Thought und Contrastive Chain-Of-Thought. Das Prompting von Flan-T5-large im 2-Shot-Modus führte zum besten System, das einen F1-Wert von 0,57, eine Genauigkeit von 0,64 und eine Konsistenz von 0,56 erreichte.
Die Ergebnisse zeigen, dass die maskierten Sprachmodelle und die großen Sprachmodelle unterschiedliche Stärken und Schwächen in Bezug auf die Metriken Genauigkeit, Konsistenz und Verlässlichkeit aufweisen. Die Ensemblierung mehrerer maskierter Sprachmodelle konnte die Leistung nicht deutlich verbessern, während das Prompting von Flan-T5-large im 2-Shot-Modus zu den besten Ergebnissen führte.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Mathilde Agu... at arxiv.org 04-08-2024
https://arxiv.org/pdf/2404.03977.pdfDeeper Inquiries