toplogo
Sign In

바일롱: 저용량 전이 학습 기반 바이링궐 모델


Core Concepts
저용량 전이 학습 기반 방법을 통해 영어 중심의 대규모 언어 모델을 중국어(번체)에 효과적으로 적응시킴
Abstract
  • 기존 대규모 언어 모델은 주로 영어 데이터로 사전 학습되어 있어 다른 언어에 대한 성능이 저하됨
  • 이를 해결하기 위해 QLoRA와 zip-tie 임베딩 기법을 활용하여 Llama 2 모델을 중국어(번체)에 효과적으로 적응시킴
  • 중국어(번체) 이해 및 생성 능력이 향상된 Bailong 모델을 개발하였으며, 지침 따르기 능력을 강화한 Bailong-instruct 모델도 함께 제공
  • 중국어(번체) 데이터셋 및 평가 벤치마크인 Bailong-bench를 소개하여 모델 성능을 종합적으로 평가
edit_icon

Customize Summary

edit_icon

Rewrite with AI

edit_icon

Generate Citations

translate_icon

Translate Source

visual_icon

Generate MindMap

visit_icon

Visit Source

Stats
모델 학습에 사용된 데이터셋은 약 130억 토큰 규모 데이터셋은 중국어(간체), 중국어(번체), 영어로 구성되어 있음
Quotes
"Large language models (LLMs) have demonstrated exceptional performance in various NLP applications." "However, the majority of existing open-source LLMs are pre-trained primarily on English data and little part of other languages."

Key Insights Distilled From

by Lung-Chuan C... at arxiv.org 04-02-2024

https://arxiv.org/pdf/2404.00862.pdf
Bailong

Deeper Inquiries

중국어(번체) 데이터 수집 및 전처리 과정에서 고려한 주요 사항은 무엇인가?

중국어(번체) 데이터 수집 및 전처리 과정에서 고려해야 하는 주요 사항은 다음과 같습니다: 데이터 다양성: 다양한 소스에서 데이터를 수집하여 중국어(번체)의 다양한 측면을 반영해야 합니다. 번체 변환: 번체로 번역된 데이터를 확보하고 번체와 간체 간의 변환을 고려해야 합니다. 금지어 필터링: 성인 콘텐츠나 부적절한 내용을 필터링하여 데이터의 품질을 유지해야 합니다. 특수 기호 및 URL 제거: 모델의 성능에 영향을 줄 수 있는 특수 기호, URL, 이모티콘, 이메일 등을 제거해야 합니다. 중복 제거: 중복된 데이터를 식별하고 제거하여 모델 학습에 영향을 미치는 중복을 방지해야 합니다. 의미 중복 제거: 의미적으로 중복된 데이터를 식별하고 제거하여 모델의 일반화 능력을 향상시켜야 합니다.
0
star