Core Concepts
인도어 언어 LLM 개발을 위한 청사진 및 자원 소개
Abstract
인도어 언어 LLM 개발을 위한 청사진과 자원 소개
22개 언어를 포함한 251B 토큰과 74.8M 지시-응답 쌍을 포함하는 자원 제공
데이터 품질과 양의 중요성을 인식하고 수작업으로 검증된 데이터, 가치 있는 데이터, 그리고 합성 데이터를 결합하여 사전 훈련 데이터를 정제하는 오픈 소스 파이프라인 구축
지시-세밀 조정을 위해 기존 인도어 데이터셋을 통합하고 영어 데이터셋을 번역/음역하여 대화 생성
독성 조정을 다루기 위해 여러 시나리오에 대한 독성 프롬프트 생성 및 이를 정렬된 LLaMa2 모델에 공급하여 비독성 응답 생성
인도어 LLM 연구 및 개발을 촉진하고 다른 언어로의 확장을 위한 오픈 소스 청사진 수립
Stats
우리의 작업은 22개 언어를 포함한 251B 토큰과 74.8M 지시-응답 쌍을 포함하는 자원을 소개합니다.
인도어 LLM 개발을 위한 청사진과 자원 소개
22개 언어를 포함한 251B 토큰과 74.8M 지시-응답 쌍을 포함하는 자원을 소개합니다.
Quotes
"우리의 작업은 22개 언어를 포함한 251B 토큰과 74.8M 지시-응답 쌍을 포함하는 자원을 소개합니다." - 작업 팀
"인도어 LLM 연구 및 개발을 촉진하고 다른 언어로의 확장을 위한 오픈 소스 청사진 수립" - 작업 팀