toplogo
Sign In

바일롱: 저용량 전이 학습 기반 바이링궐 모델


Core Concepts
저용량 전이 학습 기반 방법을 통해 영어 중심의 대규모 언어 모델을 중국어(번체)에 효과적으로 적응시킴
Abstract
기존 대규모 언어 모델은 주로 영어 데이터로 사전 학습되어 있어 다른 언어에 대한 성능이 저하됨 이를 해결하기 위해 QLoRA와 zip-tie 임베딩 기법을 활용하여 Llama 2 모델을 중국어(번체)에 효과적으로 적응시킴 중국어(번체) 이해 및 생성 능력이 향상된 Bailong 모델을 개발하였으며, 지침 따르기 능력을 강화한 Bailong-instruct 모델도 함께 제공 중국어(번체) 데이터셋 및 평가 벤치마크인 Bailong-bench를 소개하여 모델 성능을 종합적으로 평가
Stats
모델 학습에 사용된 데이터셋은 약 130억 토큰 규모 데이터셋은 중국어(간체), 중국어(번체), 영어로 구성되어 있음
Quotes
"Large language models (LLMs) have demonstrated exceptional performance in various NLP applications." "However, the majority of existing open-source LLMs are pre-trained primarily on English data and little part of other languages."

Key Insights Distilled From

by Lung-Chuan C... at arxiv.org 04-02-2024

https://arxiv.org/pdf/2404.00862.pdf
Bailong

Deeper Inquiries

중국어(번체) 데이터 수집 및 전처리 과정에서 고려한 주요 사항은 무엇인가?

중국어(번체) 데이터 수집 및 전처리 과정에서 고려해야 하는 주요 사항은 다음과 같습니다: 데이터 다양성: 다양한 소스에서 데이터를 수집하여 중국어(번체)의 다양한 측면을 반영해야 합니다. 번체 변환: 번체로 번역된 데이터를 확보하고 번체와 간체 간의 변환을 고려해야 합니다. 금지어 필터링: 성인 콘텐츠나 부적절한 내용을 필터링하여 데이터의 품질을 유지해야 합니다. 특수 기호 및 URL 제거: 모델의 성능에 영향을 줄 수 있는 특수 기호, URL, 이모티콘, 이메일 등을 제거해야 합니다. 중복 제거: 중복된 데이터를 식별하고 제거하여 모델 학습에 영향을 미치는 중복을 방지해야 합니다. 의미 중복 제거: 의미적으로 중복된 데이터를 식별하고 제거하여 모델의 일반화 능력을 향상시켜야 합니다.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star