Concepts de base
무제약 스칼라 최적화 문제에서 알려지지 않은 매개변수를 온라인 수집된 노이즈 데이터로부터 학습하는 과정에서, 탐색과 활용 간의 최적 균형을 달성하기 위한 최적 탐색 전략을 제시한다.
Résumé
이 논문은 무제약 스칼라 최적화 문제에서 알려지지 않은 매개변수를 온라인 수집된 노이즈 데이터로부터 학습하는 과정을 다룬다. 최적 입력을 찾기 위해서는 탐색과 활용 간의 균형이 중요하다. 이를 위해 유한 시계에서의 누적 후회 최소화 접근법을 고려한다. 이상적인 정보 함수 가정 하에, 최적 탐색 전략은 전혀 탐색을 하지 않는 "게으른 탐색" 또는 첫 번째 시간 단계에서만 탐색 신호를 추가하는 "즉각적 탐색"임을 보여준다. 이 결과는 2차 수치 예제를 통해 입증된다.
서론
복잡한 시스템에서 데이터 기반 의사 결정이 중요해짐
적응형 제어, 강건 제어, 실험 설계 등 다양한 연구 방향이 발전해왔음
탐색과 활용의 균형을 다루는 Lai와 Wei의 초기 연구 이후 선형 2차 조절기(LQR) 문제에서 후회 최소화에 대한 중요한 발전이 있었음
이 논문에서는 알려지지 않은 매개변수를 가진 비선형 정적 시스템의 최적화 문제를 다룸
문제 정의
알려지지 않은 매개변수 θ0에 의존하는 스칼라 비용 함수 Φ(u, θ0)의 무제약 최적화 문제 정의
노이즈가 있는 출력 측정 방정식 yt = h(ut, θ0) + et 도입
확실성 등가 원리에 기반한 반복적 최적화 프레임워크 설명
탐색 입력 αt를 통해 모델 추정 정확도 향상
누적 후회 ¯
R을 성능 지표로 사용
후회 근사 및 모델 불확실성
2차 테일러 전개를 통해 ¯
R의 근사 표현 ˜
R 도출
이상적인 추정량 가정 하에 Fisher 정보량 It의 근사 표현 ˜
It 제시
정보 함수 I(xs, I−1
s−1)의 정의 및 특성 분석
이론적 결과
정보 함수 I가 비음수, 단조 증가, 볼록 함수라는 가정 하에
누적 후회 상한 Rub을 최소화하는 최적 탐색 전략은 "게으른 탐색" 또는 "즉각적 탐색"임을 증명
수치 예제
2차 함수 최적화 문제에 대한 수치 예제 제시
제안된 이론적 결과가 실제 후회 ¯
R 최소화에도 적용됨을 보임
즉각적 이진 탐색이 가장 우수한 성능을 보임
결론 및 향후 과제
탐색 신호 분포 선택, 결정적 탐색 신호, 하한 분석 등 추가 연구 필요