核心概念
대형 언어 모델을 활용하여 데이터 기반 가설을 생성하고 이를 통해 분류 과제의 성능을 향상시킬 수 있다.
摘要
이 논문은 대형 언어 모델을 활용하여 데이터 기반 가설을 생성하는 방법을 제안한다.
- 초기 가설을 소수의 예제로부터 생성한 후, 이를 반복적으로 업데이트하여 가설의 품질을 향상시킨다.
- 멀티암드 밴딧 알고리즘에서 영감을 받아 탐험-활용 균형을 위한 보상 함수를 설계하였다.
- 생성된 가설을 활용하여 분류 과제에서 우수한 성능을 달성할 수 있었다. 특히 소량의 학습 데이터에서 기존 방법들을 크게 능가하였다.
- 생성된 가설은 기존 이론을 뒷받침할 뿐만 아니라 새로운 통찰을 제공하기도 한다.
統計資料
합성 데이터셋 SHOE SALES에서 정확도 100%를 달성하였다.
실제 데이터셋 DECEPTIVE REVIEWS에서 기존 방법 대비 13.9% 향상된 정확도를 보였다.
실제 데이터셋 HEADLINE POPULARITY에서 기존 방법 대비 3.3% 향상된 정확도를 보였다.
실제 데이터셋 TWEET POPULARITY에서 기존 방법 대비 24.9% 향상된 정확도를 보였다.
引述
"Effective generation of novel hypotheses is instrumental to scientific progress."
"While many scientific publications present extensive formal and empirical evaluation of hypotheses, the generation of hypotheses happens off-stage by researchers."
"We find that the generated hypotheses not only corroborate human-verified theories but also uncover new insights for the tasks."