Von Nachrichten zu Zusammenfassungen: Aufbau eines ungarischen Korpus für extraktive und abstraktive Zusammenfassungen
Dieser Artikel stellt einen neuen, frei verfügbaren ungarischen Datensatz für das Training von Modellen zur extraktiven und abstraktiven Textsusammenfassung vor. Der Datensatz wurde aus dem Common Crawl-Korpus zusammengestellt und umfasst 1,82 Millionen Dokumente nach sorgfältiger Bereinigung und Vorverarbeitung.