Основні поняття
본 논문에서는 예측-최적화 프레임워크에서 기존의 서로게이트 손실 함수보다 우수한 성능을 보이는 새로운 서로게이트 손실 함수인 Perturbation Gradient (PG) 손실 함수를 제안하며, 특히 잘못 지정된 설정에서도 점근적으로 최상의 정책을 달성할 수 있음을 보여줍니다.
Анотація
방향성 그래디언트를 사용한 의사 결정 중심 학습: 오류 지정 설정에서의 성능 보장
본 연구는 예측-최적화 프레임워크에서 의사 결정 손실을 효과적으로 근사하고, 특히 모델이 잘못 지정된 상황에서도 좋은 성능을 보이는 새로운 서로게이트 손실 함수를 제안하는 것을 목표로 합니다.
본 논문에서는 특정 플러그인 목적 함수의 방향 도함수와 예상 다운스트림 의사 결정 손실을 연결하고 0차 그래디언트 기술을 사용하여 이 도함수를 근사하는 Perturbation Gradient (PG) 손실 함수를 제안합니다.
PG 손실 함수의 특징
Lipschitz 연속성: 기존의 의사 결정 손실 함수와 달리 PG 손실 함수는 Lipschitz 연속이며, 기존의 그래디언트 기반 방법을 사용하여 최적화할 수 있습니다.
정보량이 풍부한 그래디언트: PG 손실 함수의 그래디언트는 예상 손실의 그래디언트에 대한 불편 추정치를 제공하여 1차 방법을 사용한 최적화를 가능하게 합니다.
점근적으로 감소하는 근사 오차: 데이터 크기가 증가함에 따라 PG 손실 함수의 근사 오차는 0에 가까워집니다.