Core Concepts
SPACE-IDEAS ist ein Datensatz, der manuell annotierte Weltraumideen enthält, um Methoden zur Erkennung wichtiger Informationen in Texten zu entwickeln und zu testen.
Abstract
Der SPACE-IDEAS-Datensatz wurde entwickelt, um Methoden zur Erkennung wichtiger Informationen in Texten zu trainieren und zu testen. Der Datensatz enthält 176 öffentlich zugängliche Innovationsideen aus der Open Space Innovation Platform (OSIP) der Europäischen Weltraumorganisation. Die Ideen wurden von sechs Annotatoren manuell annotiert, um Sätze den Kategorien "Herausforderung", "Vorschlag", "Erläuterung", "Vorteile" und "Kontext" zuzuordnen.
Zusätzlich wurde ein größerer Datensatz, SPACE-IDEAS+, durch Annotation mit einem großen Sprachmodell erstellt. Der Anteil der Übereinstimmung zwischen den manuellen und den automatischen Annotationen liegt in einem akzeptablen Bereich.
Im Vergleich zu bestehenden Datensätzen für die sequenzielle Satzklassifikation deckt SPACE-IDEAS den Weltraumbereich ab, der bisher nicht vertreten war. Außerdem unterscheiden sich die Texte in SPACE-IDEAS von akademischen Publikationen, da es sich um informelle, technische und geschäftsorientierte Innovationsideen handelt.
In Experimenten zeigt sich, dass der Einsatz von Transfer-Learning-Techniken unter Verwendung beider Datensätze zu den besten Ergebnissen führt.
Stats
SPACE-IDEAS enthält 1733 Sätze mit durchschnittlich 9,8 Sätzen pro Idee.
SPACE-IDEAS+ enthält 9806 Sätze mit 1020 Ideen.
Quotes
"SPACE-IDEAS ist der erste Datensatz für die sequenzielle Satzklassifikation, der Wissensgebiete im Zusammenhang mit dem Weltraumbereich abdeckt, die bisher in keinen anderen Ressourcen vertreten waren."
"In Experimenten zeigt sich, dass der Einsatz von Transfer-Learning-Techniken unter Verwendung beider Datensätze zu den besten Ergebnissen führt."