מושגי ליבה
PID(비례-적분-미분) 제어 메커니즘을 활용하여 입력 데이터에 가해지는 교란을 자동으로 감지하고 수정함으로써 사전 학습된 대규모 언어 모델의 강건성을 향상시킨다.
תקציר
이 연구는 대규모 언어 모델의 강건성 향상을 위해 PID 제어 기반 자가 치유 프레임워크를 제안한다.
- 대규모 언어 모델을 이산 동적 시스템으로 해석하고, 입력 데이터에 가해지는 교란을 감지하고 수정하기 위해 PID 제어기를 도입한다.
- P 제어기는 즉각적인 상태 조정을, I 제어기와 D 제어기는 각각 과거 상태와 미래 동적 추세를 고려한다.
- 학습 데이터의 기하학적 특성을 활용하여 효과적인 선형 PID 제어기를 설계한다.
- 이를 통해 전체 P-I-D 제어기의 계산 비용을 P 제어기 수준으로 낮출 수 있다.
- 또한 최적 제어 솔루션에 대한 해석적 근사 방법을 제안하여 온라인 추론 속도를 향상시킨다.
- 단순화된 설정에서 제어 시스템의 오차 분석을 수행하여 PID 제어를 통한 언어 모델 강건성 향상의 효과를 입증한다.
סטטיסטיקה
사전 학습된 대규모 언어 모델은 입력 데이터에 가해지는 미묘한 교란에 취약하여 성능이 크게 저하될 수 있다.
이러한 교란은 인간에게는 의미상 구분이 어려우나 언어 모델의 성능을 크게 떨어뜨릴 수 있어, 안전 필수 상황에서의 신뢰성 문제가 제기된다.
기존 방법인 적대적 훈련은 계산 자원이 많이 필요하고, 표준 데이터셋 성능이 저하될 수 있으며, 예상치 못한 교란에 취약하다는 한계가 있다.
ציטוטים
"PID 제어 기반 자가 치유는 사전 학습된 대규모 언어 모델, 표준 모델이든 강건성 모델이든, 다양한 교란에 대한 강건성을 향상시키는 저비용 프레임워크이다."
"제안된 PID 제어 프레임워크는 기존 강건성 향상 방법의 한계를 극복하고, 비례, 적분, 미분 제어기를 모두 활용할 수 있도록 일반화한다."