Konsep Inti
검은 상자 언어 모델을 효율적으로 적응시키기 위해 레이블 설명을 활용한 크로스 어텐션 네트워크인 CrossTune을 제안한다. 또한 ChatGPT를 활용하여 추가 학습 데이터를 생성하고 필터링하는 방법을 제안한다.
Abstrak
이 논문은 검은 상자 언어 모델을 효율적으로 적응시키는 CrossTune 모델을 제안한다. 기존 연구들은 언어 모델의 내부 매개변수나 기울기에 접근할 수 없는 검은 상자 설정에서 프롬프트 최적화 기법을 사용했지만, 이는 비효율적이다.
CrossTune은 언어 모델을 특징 추출기로 활용하고, 레이블 설명을 추가 입력으로 사용하여 입력 텍스트와 레이블 간의 의미적 관련성을 모델링한다. 이를 통해 프롬프트 검색 과정 없이도 검은 상자 언어 모델을 효과적으로 적응시킬 수 있다.
또한 CrossTune의 일반화 성능을 높이기 위해 ChatGPT를 활용하여 추가 학습 데이터를 생성하고, 이를 DeBERTa 모델로 필터링하는 방법을 제안한다. 실험 결과, CrossTune은 기존 최신 검은 상자 프롬프트 최적화 방법보다 평균 5.7% 더 높은 성능을 보였다. 데이터 증강을 사용하지 않아도 기존 방법들과 비슷하거나 더 나은 성능을 보였다.
Statistik
검은 상자 언어 모델을 효율적으로 적응시키기 위해서는 프롬프트 검색 과정이 필요하지 않다.
레이블 설명을 활용하여 입력 텍스트와 레이블 간의 의미적 관련성을 모델링할 수 있다.
ChatGPT를 활용하여 추가 학습 데이터를 생성하고, DeBERTa 모델로 필터링하면 데이터 품질을 높일 수 있다.
CrossTune은 기존 최신 검은 상자 프롬프트 최적화 방법보다 평균 5.7% 더 높은 성능을 보였다.
Kutipan
"Training or finetuning large-scale language models (LLMs) requires substantial computation resources, motivating recent efforts to explore parameter-efficient adaptation to downstream tasks."
"Current research focuses on adapting these black-box models to downstream tasks using gradient-free prompt optimization, but this often involves an expensive process of searching task-specific prompts."
"To this end, we propose CrossTune, a label-enhanced black-box few-shot learner for the adaptation of the black-box LMs without prompt search."