FUNDUS는 기존 뉴스 스크래퍼와 달리 각 온라인 신문사의 HTML 형식에 맞춰 수작업으로 개발된 맞춤형 파서를 사용한다. 이를 통해 완전하고 아티팩트 없는 뉴스 기사 텍스트를 효율적으로 추출할 수 있다. 또한 FUNDUS는 웹 크롤링과 콘텐츠 추출을 단일 파이프라인으로 통합하여 제공한다. 미리 정의된 신문사 컬렉션을 지원하므로 비기술 사용자도 쉽게 사용할 수 있다. 평가 결과, FUNDUS는 기존 도구들에 비해 뛰어난 추출 품질을 보여주었다. FUNDUS는 MIT 라이선스 하에 오픈소스로 제공되며, 새로운 신문사 지원을 위한 기여도 가능하다.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Max Dallabet... ที่ arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.15279.pdfสอบถามเพิ่มเติม