Core Concepts
iTBLS는 과학 논문의 테이블 정보를 활용한 대화형 문제 해결 데이터셋으로, 해석, 수정, 생성의 세 가지 과제를 포함하고 있다.
Abstract
iTBLS는 과학 논문의 테이블 정보를 활용한 대화형 문제 해결 데이터셋이다. 이 데이터셋은 해석, 수정, 생성의 세 가지 과제로 구성되어 있다.
해석 과제는 테이블 내용을 이해하고 질문에 답변하는 것이다. 수정 과제는 자연어 명령을 통해 테이블 내용을 조작하는 것이다. 생성 과제는 새로운 자연어 정보를 기반으로 테이블에 행이나 열을 추가하는 것이다.
iTBLS는 기존 연구와 달리 수학적 추론, 자연어 조작, 테이블 확장 등 다양한 상호작용을 포함한다. 또한 arXiv에서 수집한 과학 논문의 테이블 정보를 활용하여 기존 데이터셋과 차별화된다.
이 논문에서는 iTBLS에 대한 다양한 접근법을 제시한다. 제로샷 프롬프팅, 매개변수 효율적 fine-tuning, 다단계 접근법 등을 통해 해석, 수정, 생성 과제에서 최신 성능을 달성한다.
Stats
이 데이터셋은 과학 논문의 20,000개 테이블에서 수집되었다.
각 대화 예시는 3개의 턴으로 구성되어 있다.
해석 과제의 평균 입력 토큰 수는 14.3, 단어 수는 10.7이다.
수정 과제의 평균 입력 토큰 수는 18.5, 단어 수는 13.5이다.
생성 과제의 평균 입력 토큰 수는 59.3, 단어 수는 32.0이다.