מושגי ליבה
본 논문에서는 자동화된 파이프라인 접근 방식을 사용하여 네덜란드 유리 예술가 시브렌 발케마의 편지 기록 보관소에서 소셜 네트워크를 구축하고 분석하는 방법을 제시합니다.
참고문헌: Provatorova, V., Capurro, C., & Kanoulas, E. (2024). The art of connections: constructing a social network from the correspondence archive of Sybren Valkema. arXiv preprint arXiv:2410.13980v1.
연구 목적: 본 연구는 네덜란드 유리 예술가 시브렌 발케마의 편지 기록 보관소에서 자동화된 파이프라인 접근 방식을 사용하여 소셜 네트워크를 구축하고 분석하는 것을 목표로 합니다. 이를 통해 역사적 문서에서 소셜 네트워크 분석의 가능성과 한계를 탐구하고, 수동 분석과 비교하여 자동화된 방법의 효율성과 정확성을 평가합니다.
연구 방법: 연구팀은 텍스트 인식, 개체명 인식, 기록 연결, 개체 연결, 네트워크 구축의 5단계로 구성된 자동화 파이프라인을 개발했습니다. 텍스트 인식에는 Tesseract OCR 엔진과 Transkribus의 Text Titan I 모델을 사용했으며, 개체명 인식에는 BERTje, mBERT, WikiNEuRal 모델을 활용했습니다. 기록 연결에는 문자열 유사성 기반 알고리즘을 사용했고, 개체 연결에는 Wikidata를 활용했습니다. 네트워크 구축은 동일한 문서에 언급된 개체들을 연결하는 방식으로 이루어졌습니다.
주요 연구 결과: 자동화 파이프라인은 수동으로 작성된 네트워크에서 확인된 연결의 상당 부분을 성공적으로 식별했습니다. 특히, 발신자-수신자 연결을 감지하는 데 높은 성능을 보였으며, 텍스트에서 의미 있는 추가 연결을 발견하기도 했습니다. 그러나 스캔 페이지의 텍스트 인식, 특히 필기체 인식에서 어려움을 겪는 것으로 나타났습니다.
주요 결론: 본 연구는 자동화된 파이프라인 접근 방식이 역사적 문서에서 소셜 네트워크를 구축하고 분석하는 데 효과적인 방법이 될 수 있음을 시사합니다. 특히, 대량의 데이터를 처리하고 잠재적인 연결을 밝혀내는 데 유용합니다. 그러나 텍스트 인식과 같은 특정 단계에서 여전히 개선의 여지가 있으며, 자동화된 방법의 결과를 검증하고 보완하기 위해서는 전문가의 검토가 필수적입니다.
연구의 의의: 본 연구는 디지털 인문학 분야에서 자동화된 방법론의 잠재력을 보여주는 중요한 사례입니다. 역사적 문서에서 소셜 네트워크를 분석하는 것은 개인 간의 관계, 네트워크 구조, 정보 흐름에 대한 귀중한 통찰력을 제공할 수 있습니다. 이는 역사적 사건, 사회적 변화, 문화적 트렌드를 이해하는 데 도움이 될 수 있습니다.
연구의 한계점 및 향후 연구 방향: 본 연구는 데이터 세트의 크기와 다양성 측면에서 제한적입니다. 향후 연구에서는 더 크고 다양한 데이터 세트를 사용하여 파이프라인의 성능을 평가해야 합니다. 또한, 텍스트 인식의 정확성을 향상시키고, 도메인 특정 지식 기반을 활용하여 개체 연결을 개선하며, 네트워크 분석에 시간적 차원을 추가하는 등의 노력이 필요합니다.
סטטיסטיקה
데이터셋에는 5,800페이지의 스캔된 편지가 포함되어 있으며, 그중 3,300페이지는 타이핑된 문서이고 1,900페이지는 필기된 문서입니다.
개체명 인식 결과 총 20,442개의 고유한 개체가 감지되었습니다.
기록 연결 후 고유한 개체 수가 20,442개에서 15,364개로 감소했습니다.
개체 연결 후 고유한 개체 수가 15,364개에서 5,621개로 감소했습니다.
수동 네트워크 분석에는 950개의 문서가 사용되었습니다.
자동 네트워크에서 빈도가 10 미만인 연결은 제거되었습니다.
수동으로 선별된 88개 연결 샘플에서 56개는 텍스트에서 자동으로 감지할 수 없었습니다.
텍스트에서 감지 가능한 120개 중 71개(59.2%)가 파이프라인에 의해 올바르게 처리되었습니다.
텍스트 인식의 상대적 정확도는 69.2%였습니다.
개체명 인식의 상대적 정확도는 94%였습니다.
기록 연결의 상대적 정확도는 98.6%였습니다.
개체 연결의 정확도는 89.2%였습니다.
자동 파이프라인에서 추가로 발견된 연결 중 72%~76%가 의미 있는 것으로 평가되었습니다.