核心概念
언어 모델을 활용하여 경쟁력 있는 인간 예측자 수준의 예측 성능을 달성할 수 있다.
要約
이 논문은 언어 모델(LM)이 경쟁력 있는 인간 예측자 수준의 예측 능력을 달성할 수 있는지 연구합니다. 이를 위해 관련 정보를 자동으로 검색하고, 예측을 생성하며, 예측을 종합하는 검색 보조 LM 시스템을 개발했습니다.
-
데이터 수집:
- 5개의 경쟁 예측 플랫폼에서 질문을 수집하여 대규모 데이터셋을 구축했습니다.
- 2023년 6월 1일 이후에 공개된 질문만 테스트 세트에 포함시켜 사전 지식 누출을 방지했습니다.
-
검색 시스템:
- LM을 활용하여 관련 검색어를 생성하고, 뉴스 API에서 관련 기사를 검색했습니다.
- 기사의 관련성을 평가하고 요약하여 LM에 제공했습니다.
-
추론 시스템:
- LM에 질문, 배경, 해결 기준 등을 제공하고 추론 과정을 이끌어내는 스크래치패드 프롬프트를 사용했습니다.
- 베이스 LM과 fine-tuned LM을 활용하여 예측을 생성하고 종합했습니다.
-
평가:
- 테스트 세트에서 시스템의 Brier 점수가 0.179로, 인간 군집 예측(0.149)에 근접했습니다.
- 특정 조건(군집 예측 불확실성 높음, 초기 검색 날짜, 다수의 관련 기사 검색)에서 시스템이 인간 군집을 능가했습니다.
-
향후 발전 방향:
- 반복적인 자기 지도 학습을 통한 시스템 성능 향상
- 더 많은 데이터와 도메인 적응 학습을 통한 성능 향상
- 언어 모델의 자연스러운 예측 능력 향상
統計
우리 시스템의 Brier 점수는 0.179로, 인간 군집 예측(0.149)에 근접했습니다.
특정 조건에서 우리 시스템은 인간 군집 예측(0.240)을 능가했습니다(0.238).
우리 시스템의 정확도는 71.5%로, 인간 군집 예측(77.0%)보다 낮았습니다.
引用
"언어 모델을 활용하여 경쟁력 있는 인간 예측자 수준의 예측 성능을 달성할 수 있다."
"우리 시스템은 특정 조건에서 인간 군집 예측을 능가했다."