Das Paper stellt ein neuartiges Verfahren zur Erkennung von Softwareentitäten (Named Entity Recognition, NER) vor, das speziell für das Open-Source-Softwareökosystem entwickelt wurde.
Der Ansatz zielt darauf ab, die Knappheit an annotierten Softwardaten durch einen umfassenden zweistufigen distanzüberwachten Annotationsprozess zu überwinden. Dieser Prozess nutzt strategisch Sprachheuristiken, eindeutige Nachschlagetabellen, externe Wissensquellen und einen aktiven Lernansatz. Durch den Einsatz dieser leistungsfähigen Techniken wird nicht nur die Modellleistung verbessert, sondern auch die mit Kosten und der Knappheit an Experten-Annotatoren verbundenen Einschränkungen effektiv abgemildert.
Das Verfahren erzielt auf mehreren Datensätzen eine deutlich bessere Leistung als state-of-the-art Large Language Models (LLMs). Darüber hinaus wird die Effektivität der extrahierten Entitäten für die nachgelagerte Aufgabe der Beziehungsextraktion demonstriert.
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Somnath Bane... о arxiv.org 03-12-2024
https://arxiv.org/pdf/2402.16159.pdfГлибші Запити