이 논문은 스키마 기반 정보 추출이라는 새로운 과제를 소개한다. 이 과제는 사용자가 정의한 스키마에 따라 테이블 데이터를 구조화된 레코드로 변환하는 것이다. 이를 위해 저자들은 INSTRUCTE라는 방법을 제안한다. INSTRUCTE는 언어 모델에 테이블, 스키마, 그리고 작업 지침을 제공하여 JSON 형식의 레코드를 생성한다.
저자들은 SCHEMA-TO-JSON이라는 벤치마크를 소개하여 다양한 도메인(기계 학습, 화학, 재료 과학, 웹페이지)과 형식(LaTeX, XML, CSV, HTML)의 테이블에서 정보를 추출하는 능력을 평가한다. 실험 결과, 프로프라이어리 모델인 GPT-4와 code-davinci-002가 도메인과 형식에 관계없이 우수한 성능을 보였다. 오픈소스 모델 중에서는 CodeLlama-instruct-13B가 특정 도메인에서 좋은 성능을 보였다. 또한 저자들은 지식 증류를 통해 비용 효율적인 압축 모델을 개발할 수 있음을 보였다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問