核心概念
구조화된 데이터 패킹은 대규모 언어 모델의 장문 문맥 활용 능력을 향상시킨다.
摘要
이 논문은 대규모 언어 모델의 장문 문맥 활용 능력을 향상시키기 위한 방법을 제안한다.
- 저자들은 SPLICE라는 방법을 소개하는데, 이는 관련 문서들을 검색하여 하나의 학습 예제로 구조화하는 방식이다.
- SPLICE를 사용하여 OpenLLaMA 3B와 7B 모델을 fine-tuning한 결과, 장문 문맥 활용 능력이 향상되었다. 이는 perplexity 감소, 질의응답 성능 향상, 문맥 내 정보 검색 능력 향상 등으로 나타났다.
- 저자들은 SPLICE의 설계 선택사항들을 분석하고, 대규모 모델에서의 성능 향상을 보여주었다. 또한 SPLICE가 코드와 텍스트 데이터 간에 전이 효과를 보인다는 것을 확인했다.
统计
대규모 언어 모델의 장문 문맥 활용 능력이 실제 응용에서 제한적이다.
학습 데이터의 구조화를 통해 장문 문맥 활용 능력을 향상시킬 수 있다.
SPLICE를 사용하여 OpenLLaMA 3B와 7B 모델을 fine-tuning한 결과, perplexity가 감소했다.
SPLICE를 사용한 모델이 질의응답, 문맥 내 정보 검색 등의 과제에서 성능이 향상되었다.
引用
"Recent developments in long-context large language models have attracted considerable attention. Yet, their real-world applications are often hindered by ineffective context information use."
"The central finding of this work is that structuring training data to increase semantic interdependence is an effective strategy towards better long context utilization."
"We empirically validate SPLICE showing that fine-tuning of OpenLLaMA 3Bv2 and 7Bv2 (Geng & Liu, 2023) for only 2B–6B tokens already brings perplexity reduction."