Core Concepts
소스페이스 프로젝트는 1836년부터 1936년까지 프랑스 인구조사 명부 데이터를 대규모로 수집, 처리 및 분석하여 100년간의 사회 변화를 이해하고자 함.
Abstract
소스페이스 프로젝트는 프랑스 인구조사 명부 데이터를 대규모로 수집, 처리 및 분석하는 것을 목표로 합니다. 이 데이터는 1836년부터 1936년까지 5년 단위로 작성되었으며, 개인의 이름, 나이, 직업 등의 정보를 포함하고 있습니다.
프로젝트 팀은 이 데이터를 자동으로 추출하고 구조화하기 위해 다음과 같은 작업을 수행했습니다:
전국 94개 지방 기록보관소에서 데이터를 수집하고 표준화하는 도구 개발
수작업 표 인식 모델 개발을 통해 개인 정보 자동 추출
개인을 가구 단위로 그룹화하는 기능 구현
대규모 데이터 처리를 위한 고성능 컴퓨팅 인프라 활용
이를 통해 프로젝트 팀은 수백만 건의 기록을 처리하여 100년간의 프랑스 사회 변화를 분석할 수 있는 데이터베이스를 구축할 수 있었습니다. 또한 이 데이터는 일반 대중에게 공개되어 누구나 활용할 수 있게 될 예정입니다.
Stats
프로젝트에서 처리할 것으로 추정되는 이미지 수: 3천만 장
현재 11개 지방 기록보관소에서 수집한 이미지 수: 450,000장
이미지 처리 속도: 이미지당 평균 21.3초
Quotes
"프로젝트 팀은 수백만 건의 기록을 처리하여 100년간의 프랑스 사회 변화를 분석할 수 있는 데이터베이스를 구축할 수 있었습니다."
"이 데이터는 일반 대중에게 공개되어 누구나 활용할 수 있게 될 예정입니다."