Diese Studie untersucht die Leistungsfähigkeit von Textkürzungsstrategien wie Abschneiden und Zusammenfassung für Textklassifizierungsaufgaben. Es wurden verschiedene Variationen dieser Strategien auf dem IndoSum-Datensatz getestet, der indonesische Nachrichtenartikel mit Themenklassifizierung und Zusammenfassungen enthält.
Die Ergebnisse zeigen, dass die extraktive Zusammenfassung die Mehrheit der Abschneidungsvariationen übertrifft und nur von einer Strategie (Nehmen der ersten 70 Tokens) übertroffen wird. Dies deutet darauf hin, dass Zusammenfassungen ein vielversprechendes und generalisierbareres Kürzungsverfahren sein können, insbesondere wenn die wichtigsten Informationen nicht am Anfang des Dokuments liegen.
Automatische abstraktive Zusammenfassungen schnitten jedoch schlechter ab. Weitere Verbesserungen der Zusammenfassungsleistung sind erforderlich, um das volle Potenzial dieser Strategie auszuschöpfen. Außerdem wäre ein neuer Datensatz mit weniger einheitlicher Verteilung der Hauptideen nötig, um die Effektivität von Zusammenfassungen in verschiedenen Arten von Langtext-Klassifizierungsaufgaben zu testen.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Mirza Alim M... في arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12799.pdfاستفسارات أعمق