Centrala begrepp
HTML 문서는 제목, 표 구조와 같은 구조적 및 의미적 정보를 풍부하게 담고 있어 일반 텍스트보다 RAG 시스템의 검색 지식 모델링에 더 효과적입니다.
Sammanfattning
HtmlRAG: RAG 시스템에서 검색된 지식 모델링을 위해 HTML이 일반 텍스트보다 효과적인 이유
본 연구 논문에서는 RAG(Retrieval-Augmented Generation) 시스템에서 검색된 지식을 모델링할 때 HTML을 사용하는 것이 일반 텍스트보다 효과적이라는 것을 보여줍니다. 저자들은 HTML이 제목, 표 구조와 같은 HTML 문서에 내재된 구조적 및 의미적 정보를 보존하기 때문에 일반 텍스트보다 우수하다고 주장합니다.
본 연구의 목표는 RAG 시스템에서 검색된 지식을 표현하는 데 HTML을 사용하는 것의 효과를 실험적으로 검증하는 것입니다.
저자들은 HtmlRAG라는 새로운 RAG 시스템을 제안합니다. 이 시스템은 검색된 지식의 형식으로 일반 텍스트 대신 HTML을 사용합니다. 저자들은 HTML 문서에서 의미적으로 관련 없는 콘텐츠를 제거하기 위해 HTML 정리 모듈을 설계했습니다. 또한 입력 쿼리와의 의미적 유사성이 낮은 덜 중요한 HTML 블록을 삭제하는 2단계 구조 인식 가지치기 방법을 제안했습니다. 마지막으로 보다 세분화된 블록 가지치기를 위해 생성 모델을 개발했습니다.