핵심 개념
FUNDUS는 각 온라인 신문사의 HTML 형식에 맞춰 수작업으로 개발된 맞춤형 파서를 사용하여 완전하고 아티팩트 없는 뉴스 기사 텍스트를 효율적으로 추출할 수 있는 사용자 친화적인 웹 스크래퍼 도구이다.
초록
FUNDUS는 기존 뉴스 스크래퍼와 달리 각 온라인 신문사의 HTML 형식에 맞춰 수작업으로 개발된 맞춤형 파서를 사용한다. 이를 통해 완전하고 아티팩트 없는 뉴스 기사 텍스트를 효율적으로 추출할 수 있다. 또한 FUNDUS는 웹 크롤링과 콘텐츠 추출을 단일 파이프라인으로 통합하여 제공한다. 미리 정의된 신문사 컬렉션을 지원하므로 비기술 사용자도 쉽게 사용할 수 있다. 평가 결과, FUNDUS는 기존 도구들에 비해 뛰어난 추출 품질을 보여주었다. FUNDUS는 MIT 라이선스 하에 오픈소스로 제공되며, 새로운 신문사 지원을 위한 기여도 가능하다.
통계
2023년 총 551,718개의 기사 추출, 이 중 514,452개의 본문 추출
2022년 총 819,841개의 기사 추출, 이 중 606,922개의 본문 추출
2021년 총 777,702개의 기사 추출, 이 중 534,575개의 본문 추출
2020년 총 951,598개의 기사 추출, 이 중 391,639개의 본문 추출
인용구
"FUNDUS는 각 온라인 신문사의 HTML 형식에 맞춰 수작업으로 개발된 맞춤형 파서를 사용하여 완전하고 아티팩트 없는 뉴스 기사 텍스트를 효율적으로 추출할 수 있는 사용자 친화적인 웹 스크래퍼 도구이다."
"FUNDUS는 웹 크롤링과 콘텐츠 추출을 단일 파이프라인으로 통합하여 제공하며, 미리 정의된 신문사 컬렉션을 지원하므로 비기술 사용자도 쉽게 사용할 수 있다."