이 논문은 온라인 모델 선택 문제를 다룬다. 온라인 모델 선택은 다양한 모델 중에서 특정 작업에 가장 적합한 모델을 선택하는 것으로, 보상 극대화와 탐험 비용 최소화의 균형을 이루어야 한다.
논문에서는 모델 성능의 증가-수렴 패턴을 고려한 TI-UCB 알고리즘을 제안한다. TI-UCB는 다음과 같은 두 가지 핵심 기능을 가진다:
증가 예측: 선형 회귀를 통해 모델 성능의 증가 추세를 예측하고, 불확실성을 고려한 상한 신뢰 구간을 사용하여 탐험과 활용의 균형을 달성한다.
변화 감지: 이동 창 기반의 변화 감지 메커니즘을 통해 모델 성능의 수렴 시점을 효과적으로 포착한다.
이를 통해 TI-UCB는 기존 방법들에 비해 더 정확한 예측과 빠른 수렴을 보인다. 이론적으로는 로그 회귀 상한 경계를 달성하며, 실험적으로도 합성 데이터와 실제 데이터에서 우수한 성능을 보인다.
특히 대형 언어 모델 선택 실험에서는 모델 성능과 미세조정 비용을 동시에 고려하여 경제적 트레이드오프를 관리하는 것을 보여준다.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Yu Xia,Fang ... : arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07213.pdfDaha Derin Sorular