Core Concepts
VinAI Research는 베트남어 대규모 언어 모델 PhoGPT-4B와 PhoGPT-4B-Chat을 공개했습니다. 이 모델들은 베트남어 텍스트 102B 토큰으로 사전 학습되었으며, 다양한 베트남어 과제에서 우수한 성능을 보였습니다.
Abstract
이 논문에서는 VinAI Research가 개발한 베트남어 대규모 언어 모델 PhoGPT-4B와 PhoGPT-4B-Chat을 소개합니다.
PhoGPT-4B는 3.7B 매개변수의 기반 모델로, 102B 토큰의 베트남어 말뭉치로 처음부터 사전 학습되었습니다. 8192 문맥 길이와 20,480 토큰 어휘를 사용했습니다.
PhoGPT-4B-Chat은 PhoGPT-4B를 70,000개의 지시 프롬프트와 응답, 그리고 290,000개의 추가 대화 데이터로 fine-tuning한 모델입니다.
이 모델들의 성능을 기존 폐쇄형 및 오픈소스 모델과 비교한 결과, PhoGPT-4B-Chat이 베트남 관련 질문에서 가장 높은 정확도를 보였습니다.
저자들은 이 모델들이 향후 베트남어 자연어 처리 연구와 응용 프로그램에 기여할 것으로 기대합니다.
Stats
베트남어 말뭉치 102B 토큰으로 사전 학습
8192 문맥 길이, 20,480 토큰 어휘 사용
70,000개 지시 프롬프트와 응답, 290,000개 대화 데이터로 fine-tuning