Kernkonzepte
Dieses Papier stellt den ORKG-Datensatz-Inhaltstyp vor, eine spezialisierte Erweiterung der Open Research Knowledge Graph (ORKG)-Plattform, die eine standardisierte Beschreibung von Forschungsdatensätzen ermöglicht und diese mit ihren zugehörigen wissenschaftlichen Veröffentlichungen integriert.
Zusammenfassung
Dieses Papier präsentiert den ORKG-Datensatz-Inhaltstyp, eine spezialisierte Erweiterung der Open Research Knowledge Graph (ORKG)-Plattform. Der ORKG-Datensatz-Inhaltstyp bietet eine standardisierte Beschreibung von Forschungsdatensätzen und integriert diese mit ihren zugehörigen wissenschaftlichen Veröffentlichungen.
Die Autoren identifizieren drei Hauptforschungsfragen, die bei der Entwicklung des ORKG-Datensatz-Inhaltstyps adressiert werden:
- Wie können strukturierte Beschreibungen von Forschungsdatensätzen innerhalb des semantischen Publikationsmodells von Wissensgrafen dargestellt werden?
- Welche wesentlichen Merkmale können aus den Beschreibungen wissenschaftlicher Artikel extrahiert werden, die den Kriterien der Relevanz, Nutzbarkeit und Qualität von Datensätzen dienen?
- Wie kann eine solche Darstellung anderen dabei helfen, anpassbare Momentaufnahmen bestimmter Informationen zu erstellen?
Um diese Fragen zu beantworten, definieren die Autoren die folgenden Designprinzipien für den ORKG-Datensatz-Inhaltstyp:
- Standardisierte Nomenklatur: Etablierung eines kontrollierten Vokabulars für Forschungsdatensätze, das auf bestehenden Metadaten-Ontologien aufbaut.
- Verwendung von Templates: Definieren von Formularvorlagen, um eine konsistente Formatierung beim Erfassen neuer Forschungsdatensätze zu gewährleisten.
- FAIR-Standards-Konformität: Sicherstellung der Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit der Daten gemäß den FAIR-Prinzipien.
Als Anwendungsbeispiel demonstrieren die Autoren die Umsetzung des ORKG-Datensatz-Inhaltstyps auf 40 Forschungsdatensätze im Bereich des wissenschaftlichen Informationsextrahierens. Die strukturierten Datensatzbeschreibungen umfassen Informationen zu Forschungsproblemen, statistischen Attributen, Qualitätsindikatoren, Leistungskennzahlen und Metadaten. Darüber hinaus zeigen die Autoren, wie diese strukturierten Darstellungen für verschiedene Szenarien, wie bibliometrische Analysen, Datensatzsuche und Leistungsvergleiche, genutzt werden können.
Insgesamt präsentiert dieses Papier einen innovativen Ansatz zur semantischen Veröffentlichung von Forschungsdatensätzen, der deren Auffindbarkeit und Wiederverwendung erheblich verbessern kann.
Statistiken
Die 40 Forschungsdatensätze wurden in den Jahren 2011 bis 2022 veröffentlicht.
Die Datensätze decken verschiedene Teilprobleme des wissenschaftlichen Informationsextrahierens ab, wie Zitationsklassifizierung, Satzklassifizierung, Rhetorikmarkierung, Beziehungsextraktion, Koreferenzauflösung, automatische Erstellung von Ranglisten, Wissensgraphkonstruktion, wissenschaftliche Behauptungsverifizierung, Textsammenfassung und Textgenerierung.
Die Datensätze enthalten im Durchschnitt Annotationen für mehrere tausend Sätze aus hunderten von Dokumenten.
Zitate
"Obwohl frühere Arbeiten durchgeführt wurden, um den Inhalt und den Kontext von Datensätzen zu beschreiben, ist sie nicht detailliert genug in Bezug auf die angebotenen Eigenschaften."
"Die ORKG-Datensatz-Darstellung, die in diesem Papier eingeführt wird, ist ein Schritt in einer langfristigen Forschungsagenda der ORKG, um einen Paradigmenwechsel von dokumentenbasierter zu strukturierter wissensbasierter wissenschaftlicher Kommunikation herbeizuführen."