핵심 개념
언어 모델을 활용하여 경쟁력 있는 인간 예측자 수준의 예측 성능을 달성할 수 있다.
초록
이 논문은 언어 모델(LM)이 경쟁력 있는 인간 예측자 수준의 예측 능력을 달성할 수 있는지 연구합니다. 이를 위해 관련 정보를 자동으로 검색하고, 예측을 생성하며, 예측을 종합하는 검색 보조 LM 시스템을 개발했습니다.
데이터 수집:
5개의 경쟁 예측 플랫폼에서 질문을 수집하여 대규모 데이터셋을 구축했습니다.
2023년 6월 1일 이후에 공개된 질문만 테스트 세트에 포함시켜 사전 지식 누출을 방지했습니다.
검색 시스템:
LM을 활용하여 관련 검색어를 생성하고, 뉴스 API에서 관련 기사를 검색했습니다.
기사의 관련성을 평가하고 요약하여 LM에 제공했습니다.
추론 시스템:
LM에 질문, 배경, 해결 기준 등을 제공하고 추론 과정을 이끌어내는 스크래치패드 프롬프트를 사용했습니다.
베이스 LM과 fine-tuned LM을 활용하여 예측을 생성하고 종합했습니다.
평가:
테스트 세트에서 시스템의 Brier 점수가 0.179로, 인간 군집 예측(0.149)에 근접했습니다.
특정 조건(군집 예측 불확실성 높음, 초기 검색 날짜, 다수의 관련 기사 검색)에서 시스템이 인간 군집을 능가했습니다.
향후 발전 방향:
반복적인 자기 지도 학습을 통한 시스템 성능 향상
더 많은 데이터와 도메인 적응 학습을 통한 성능 향상
언어 모델의 자연스러운 예측 능력 향상
통계
우리 시스템의 Brier 점수는 0.179로, 인간 군집 예측(0.149)에 근접했습니다.
특정 조건에서 우리 시스템은 인간 군집 예측(0.240)을 능가했습니다(0.238).
우리 시스템의 정확도는 71.5%로, 인간 군집 예측(77.0%)보다 낮았습니다.
인용구
"언어 모델을 활용하여 경쟁력 있는 인간 예측자 수준의 예측 성능을 달성할 수 있다."
"우리 시스템은 특정 조건에서 인간 군집 예측을 능가했다."