Conceptos Básicos
본 논문에서는 다양한 오픈 디지털 문헌 데이터를 통합하고 분석하기 위해 개발된 페르세우스 디지털 라이브러리 6세대와 ATLAS(Aligned Text and Linguistic Annotation Server) 아키텍처를 소개합니다.
Resumen
본 논문은 고대 그리스어, 라틴어, 고대 영어, 고전 아랍어, 고전 페르시아어 등 다양한 언어로 된 디지털 문헌 데이터를 통합하고 분석하기 위해 개발된 페르세우스 디지털 라이브러리 6세대와 ATLAS(Aligned Text and Linguistic Annotation Server) 아키텍처를 소개하는 연구 논문입니다.
연구 배경 및 목표
- 최근 25년 동안 Creative Commons 라이선스를 통해 다양한 언어의 디지털 문헌 데이터가 공개되었지만, 이러한 데이터는 여러 저장소와 시스템에 분산되어 있어 통합적인 활용에 어려움을 겪고 있습니다.
- 본 연구는 이러한 문제를 해결하기 위해 다양한 종류의 디지털 주석을 통합하고 표현할 수 있는 새로운 독서 환경을 구축하는 것을 목표로 합니다.
페르세우스 디지털 라이브러리의 발전 과정
- 1985년 시작된 페르세우스 프로젝트는 텍스트 데이터뿐만 아니라 시각 정보를 함께 제공하는 것을 목표로 했습니다.
- 1990년대 후반부터는 텍스트 레코드에 집중하여 자동 분석을 통해 텍스트 데이터 간의 새로운 연결을 구축하고, TEI XML 마크업을 사용하여 데이터의 지속 가능성을 높였습니다.
- 2018년 출시된 페르세우스 5.0(Scaife Viewer)은 대화형 텍스트 노트, 자동 사전 검색, 주석 및 참고 문헌 통합과 같은 디지털 에디션의 핵심 기능을 지원했습니다.
"Beyond Translation" 프로젝트
- 2019년부터 시작된 "Beyond Translation" 프로젝트는 페르세우스 6의 프로토타입을 개발하는 데 기여했습니다.
- 이 프로젝트는 트리뱅크, 원문과 번역본 간의 단어 및 구문 수준 정렬, 언어별 문법 주석, 기계 판독 가능한 운율 분석, 녹음된 낭독 등 다양한 유형의 디지털 주석을 통합하고 표현하는 데 중점을 두었습니다.
페르세우스 6, ATLAS 아키텍처 및 CTS 데이터 모델
- 페르세우스 6는 Scaife 아키텍처를 보완하기 위해 개발된 ATLAS(Aligned Text and Linguistic Annotation Server) 아키텍처를 기반으로 합니다.
- ATLAS는 CTS(Canonical Text Services) 데이터 모델을 사용하여 다양한 출처의 데이터를 통합하고, TSV(Tab-Separated Values) 형식을 사용하여 텍스트 데이터를 추가하고 관리합니다.
ATLAS 아키텍처의 주요 기능
- 형태-구문 분석: 수동으로 생성된 주석, 자동으로 생성된 트리뱅크, SpaCy를 사용한 자동 생성 트리뱅크 등 다층적인 언어 주석을 제공합니다.
- 사전: Perseus에서 사용 가능한 대부분의 사전을 JSON 형식으로 추가하여 구조와 인라인 형식을 유지합니다.
- 텍스트 노트: 특수한 유형의 주석으로 텍스트 노트를 저장합니다.
- 텍스트 정렬: 원문과 번역본 간의 단어 및 구문 수준 정렬을 생성하고 표현합니다.
- 구문 트리(트리뱅크): JSON 형식으로 트리뱅크를 표현하고, Universal Dependency Framework(UD) 태그셋을 사용하기 위한 작업을 진행 중입니다.
- 오디오 주석: 텍스트 청크를 특정 MP4 파일과 정렬하여 오디오 주석을 제공합니다.
- 기여/크레딧: 디지털 주석에 대한 세부적인 크레딧을 보존하고 집계하여 기여자의 기여도를 명확히 합니다.
결론 및 향후 연구 방향
- 본 논문에서는 ATLAS 아키텍처의 첫 번째 릴리스와 대표적인 데이터를 소개했습니다.
- 향후 연구에서는 ATLAS 서버에서 제공되는 서비스를 확장하고, Github에서 사용 가능한 ATLAS 데이터를 개선하고, Scaife 아키텍처에 Beyond Translation에서 개발된 프론트엔드 지원을 추가할 예정입니다.
Estadísticas
페르세우스 디지털 라이브러리 5.0(Scaife Viewer)에는 3,776개의 에디션과 번역본으로 구성된 2,669개의 작품이 포함되어 있으며, 총 8,380만 단어(그리스어 4,060만 단어, 라틴어 1,640만 단어)로 이루어져 있습니다.
200만 단어 이상의 그리스어 및 라틴어가 수동으로 트리뱅크되어 GitHub에서 제공됩니다.
GLAUx 프로젝트는 수동 및 자동으로 생성된 데이터를 포함하여 2,000만 단어의 트리뱅크된 그리스어를 출판했습니다.
Perseus에는 4,000만 단어의 그리스어와 1,600만 단어의 라틴어가 포함되어 있습니다.
그리스어 및 라틴어 원문과 영어 번역본 간의 자동 정렬은 약 80%의 정확도를 보입니다.
250,000줄 이상의 그리스어 및 라틴어 시에 대한 기계 판독 가능한 운율 분석 데이터가 제작되었습니다.
Citas
"지속 가능한 데이터 통합은 처음부터 Perseus 개발의 원동력이었습니다."
"우리의 목표는 데이터를 생성하기보다는 구성하는 워크플로를 만드는 것이었습니다."
"새로운 독서 환경은 번역을 넘어서는 풍부한 정보를 제공해야 합니다."
"ATLAS는 CTS 준수 TEI XML과 ATLAS의 광범위한 데이터를 통합할 수 있도록 합니다."
"우리의 목표는 여러 프로젝트의 크레딧을 표현하고 기여자가 프로젝트 전반에 걸쳐 자신의 기여를 보여주는 포트폴리오를 개발할 수 있도록 하는 것입니다."