FUNDUS는 기존 뉴스 스크래퍼와 달리 각 온라인 신문사의 HTML 형식에 맞춰 수작업으로 개발된 맞춤형 파서를 사용한다. 이를 통해 완전하고 아티팩트 없는 뉴스 기사 텍스트를 효율적으로 추출할 수 있다. 또한 FUNDUS는 웹 크롤링과 콘텐츠 추출을 단일 파이프라인으로 통합하여 제공한다. 미리 정의된 신문사 컬렉션을 지원하므로 비기술 사용자도 쉽게 사용할 수 있다. 평가 결과, FUNDUS는 기존 도구들에 비해 뛰어난 추출 품질을 보여주었다. FUNDUS는 MIT 라이선스 하에 오픈소스로 제공되며, 새로운 신문사 지원을 위한 기여도 가능하다.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Max Dallabet... às arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.15279.pdfPerguntas Mais Profundas