Core Concepts
데이터 공유 방식이 데이터의 유용성과 재사용성에 영향을 미칠 수 있다. 여기서는 이전에 대량으로 공유했던 데이터를 지식 그래프를 통해 훨씬 더 세부적으로 탐색하고 조사할 수 있는 방식으로 활용하는 방법을 보여준다.
Abstract
이 연구에서는 이전에 대량으로 공유했던 데이터셋을 지식 그래프로 변환하여 더 세부적으로 탐색하고 조사할 수 있는 방식으로 활용하는 방법을 보여준다.
원래 데이터셋은 PubMed Central에 게시된 바이오의학 출판물과 관련된 GitHub 호스팅 Jupyter 노트북의 계산 재현성에 관한 것이다. 이 데이터셋에는 출판물, 관련 GitHub 리포지토리 및 Jupyter 노트북, 노트북의 재현성에 대한 풍부한 메타데이터가 포함되어 있다.
연구진은 이 데이터셋을 시맨틱 트리플로 변환하고 트리플 스토어에 로드하여 FAIR Jupyter라는 지식 그래프를 만들었다. 이를 통해 특정 사용 사례에 맞춰 조정할 수 있는 쿼리를 통해 세부적인 데이터 탐색과 분석이 가능해졌다. 이러한 쿼리를 통해 원래 데이터셋의 모든 변수에 대한 세부 정보, 변수 간 관계 또는 그래프의 내용과 해당 외부 리소스의 조합을 확인할 수 있다.
연구진은 다양한 사용 사례에 대한 예시 쿼리를 제공하고, 이러한 쿼리 세트를 사용하여 개별적으로 또는 클래스별로 특정 콘텐츠 유형을 프로파일링하는 방법을 설명한다.
마지막으로 이러한 의미론적으로 향상된 복잡한 데이터셋의 공유가 데이터의 FAIR성(찾을 수 있음, 접근 가능, 상호운용 가능, 재사용 가능)을 높이고 데이터 품질, 표준화, 자동화, 재현성 등 모범 사례를 식별하고 전달하는 데 도움이 될 수 있다고 논의한다.
Stats
이 데이터셋은 약 190만 개의 트리플로 구성되어 있으며, 총 20.6GB의 공간을 차지한다.
개체 유형별로 생성된 더 작은 그래프를 기반으로 지식 그래프를 구축했다.
각 개체 유형에 대한 매핑 규칙 수, 생성된 총 트리플 수, RDF 파일의 총 파일 크기는 표 1에 요약되어 있다.