Core Concepts
대형 언어 모델(LLM)을 활용하여 테이블 데이터의 분류, 회귀 및 결측값 보완 작업을 수행하고자 한다. LLM은 자연어 이해에 능숙하지만 구조화된 테이블 데이터 처리에는 한계가 있다. 이를 해결하기 위해 다양한 테이블 데이터로 LLM을 대규모 학습시키고, 이를 통해 테이블 데이터 이해와 자연어 이해의 장점을 결합하여 테이블 데이터 예측 작업을 향상시키고자 한다.
Abstract
이 연구는 대형 언어 모델(LLM)의 테이블 데이터 이해 및 활용 잠재력을 탐구한다.
- 테이블 데이터 특성을 반영하여 LLM을 대규모로 사전 학습시킨다.
- 약 13억 개의 다양한 테이블 데이터를 수집하여 학습 데이터로 활용
- 마스킹-예측 학습 방식을 통해 테이블 데이터의 내재된 패턴과 관계성을 학습
- 사전 학습된 LLM을 분류, 회귀, 결측값 예측 등 다양한 데이터 과학 작업에 적용한다.
- 분류 및 회귀 작업을 위한 맞춤형 fine-tuning 수행
- 결측값 예측, 제로샷 예측, 극소량 데이터 학습 등 다양한 시나리오에서 우수한 성능 발휘
- 실험 결과 분석
- 분류 작업에서 기존 모델 대비 평균 8.9% 성능 향상
- 회귀 작업에서 평균 10.7% 성능 향상
- 결측값 예측에서 GPT-4 대비 27% 향상
- 극소량 데이터(4샷) 학습에서 28.8% 향상
- 장문 문맥 학습에서 Llama-2 80K 대비 18.8% 향상
이를 통해 LLM의 테이블 데이터 이해와 활용 능력을 크게 향상시킬 수 있음을 보여준다.
Stats
분류 작업에서 평균 8.9% 성능 향상
회귀 작업에서 평균 10.7% 성능 향상
결측값 예측에서 GPT-4 대비 27% 향상
극소량 데이터(4샷) 학습에서 28.8% 향상
장문 문맥 학습에서 Llama-2 80K 대비 18.8% 향상