Temel Kavramlar
레이블 설명을 활용하여 입력 텍스트 시퀀스와 의미적 관련성을 모델링함으로써 검은 상자 언어 모델을 효과적으로 적응시킬 수 있다.
Özet
이 논문은 검은 상자 언어 모델을 효과적으로 적응시키는 CrossTune 방법을 제안한다. 기존 연구는 비용이 많이 드는 프롬프트 검색 과정에 의존하지만, CrossTune은 레이블 설명을 활용하여 입력 텍스트와 레이블 간의 의미적 관련성을 모델링함으로써 프롬프트 검색 없이도 검은 상자 모델을 효과적으로 적응시킬 수 있다.
또한 이 논문은 ChatGPT를 활용하여 레이블 기반으로 추가 학습 데이터를 생성하고, 이를 필터링하는 스위치 메커니즘을 제안한다. 이를 통해 소수 샷 텍스트 분류 성능을 크게 향상시킬 수 있다.
실험 결과, CrossTune은 기존 최신 검은 상자 튜닝 방법보다 평균 5.7% 더 높은 성능을 보였다. 데이터 증강을 사용하지 않더라도 CrossTune은 대부분의 데이터셋에서 기존 방법들보다 우수하거나 비슷한 성능을 달성했다.
İstatistikler
검은 상자 언어 모델 기반 접근법은 내부 매개변수나 기울기에 대한 접근이 제한되어 있어 비용이 많이 든다.
기존 프롬프트 기반 접근법은 프롬프트 설계와 선택에 매우 민감하여 성능과 일반화가 불안정하다.
소수 샷 학습에서 모델은 쉽게 훈련 데이터에 과적합되어 테스트 데이터에 대한 일반화가 어렵다.
Alıntılar
"Training or finetuning large-scale language models (LLMs) requires substantial computation resources, motivating recent efforts to explore parameter-efficient adaptation to downstream tasks."
"Current research focuses on adapting these black-box models to downstream tasks using gradient-free prompt optimization, but this often involves an expensive process of searching task-specific prompts."
"Contrary to prior works, we do not make such an assumption. Instead, we harness the strong instruction-following capability of ChatGPT to generate data conditioned on the labels through in-context learning."