Core Concepts
研究データセットの発見性と再利用性を高めるため、その関連する学術出版物の構造化された記述を提供する。
Abstract
本論文では、研究データセットの発見性と再利用性を高めるため、オープン研究知識グラフ(ORKG)上に「ORKG-Dataset」コンテンツタイプを提案している。
主な内容は以下の通り:
研究データセットの構造化記述のための設計原則を示した。これには、標準化された命名法、テンプレートの使用、FAIR原則への準拠などが含まれる。
自然言語処理分野の科学情報抽出に関する40の研究データセットを例に、ORKG-Datasetによる具体的な適用例を示した。
データセットの関連情報(研究課題、統計属性、品質指標、ベンチマーク結果、メタデータ)を体系的に記述することで、データセットの発見性と再利用性が向上する。
ORKG上の構造化データを活用し、書誌情報、データセットの検索、最新技術動向の把握など、ユーザーの多様なニーズに対応できる柔軟な検索・分析が可能になる。
Stats
本研究では40件の研究データセットを対象としている。
各データセットには、研究課題、統計属性(アノテーション数、文書数など)、品質指標(アノテーター間一致度)、ベンチマーク結果(モデル名、スコア、メトリクス)、メタデータ(名称、説明、URL)などが構造化して記述されている。