Core Concepts
제2회 BabyLM 챌린지는 언어 모델의 효율적인 사전 학습을 장려하기 위해 개최됩니다. 참가자들은 제한된 데이터 환경에서 모델을 최적화하고, 인지적으로 타당한 평가 지표를 개발하는 등의 방식으로 참여할 수 있습니다.
Abstract
제2회 BabyLM 챌린지는 지난해에 이어 개최됩니다. 이번 챌린지의 주요 목표는 여전히 제한된 데이터 환경에서 언어 모델의 효율적인 사전 학습을 장려하는 것입니다. 그러나 몇 가지 규칙이 변경되었습니다.
첫째, 논문 트랙이 새로 도입되었습니다. 이를 통해 모델 기반 제출물 외에도 인지적으로 영감을 받은 새로운 벤치마크 또는 분석 기법 등을 제출할 수 있습니다.
둘째, 사전 학습 데이터 규칙이 완화되었습니다. 참가자들은 100M 단어 또는 10M 단어 예산 내에서 자체 데이터셋을 구축할 수 있습니다.
셋째, 멀티모달 비전-언어 트랙이 도입되었습니다. 참가자들은 50% 텍스트 데이터와 50% 이미지-텍스트 멀티모달 데이터로 구성된 데이터셋을 활용할 수 있습니다.
이번 챌린지의 주요 일정은 다음과 같습니다. 2024년 3월 30일 학습 데이터 공개, 4월 30일 평가 파이프라인 공개, 9월 13일 결과 제출, 9월 20일 논문 제출, 10월 8일 동료 평가 시작, 10월 30일 수락 및 리더보드 공개, 12월 9-15일 NeurIPS 발표(수락 시).
Stats
100M 단어 이하의 텍스트 데이터셋은 CHILDES, BNC 대화 부분, 프로젝트 구텐베르크 아동 이야기, OpenSubtitles, 간단한 영어 위키피디아, Switchboard Dialog Act Corpus 등으로 구성됩니다.
100M 단어 이하의 멀티모달 데이터셋은 Localized Narratives와 Conceptual Captions 3M 데이터로 구성되며, 텍스트 50M 단어와 이미지-텍스트 50M 단어로 이루어져 있습니다.