이 논문은 온라인 선형 프로그래밍(OLP) 문제를 다룬다. OLP 문제에서 의사결정자는 제한된 자원을 가지고 순차적으로 도착하는 고객의 요청을 수락 또는 거절하여 총 기대 수익을 최대화해야 한다.
저자들은 도착 확률이 알려지지 않은 경우를 고려한다. 기존 연구에서는 LP 기반 알고리즘과 LP 프리 알고리즘으로 구분되는데, 전자는 성능이 우수하지만 많은 LP를 해결해야 하고 후자는 계산 효율적이지만 성능이 떨어진다.
저자들은 이 두 극단을 연결하는 알고리즘을 제안한다. 제안된 알고리즘인 AIR 정책은 O(log log T) 번의 LP 해결만으로 상수 회귀 한계를 달성한다. 또한 M번의 LP 해결만 허용되는 경우에도 O(T^(1/2+ε)^(M-1)) 회귀 한계를 달성한다.
AIR 정책은 학습 시간대와 근사 시간대에 LP를 간헐적으로 해결한다. 학습 시간대에는 초기 데이터가 부족할 때 정책을 업데이트하고, 근사 시간대에는 재고가 소진될 때 정책을 업데이트한다. 두 시간대 사이에는 근사 LP 솔루션을 사용하여 의사결정을 내린다.
또한 저자들은 도착 확률이 알려진 경우에도 AIR 정책을 쉽게 적용할 수 있음을 보여준다. 이 경우 제안된 알고리즘은 M번의 LP 해결만으로 O(T^(1/2+ε)^M) 회귀 한계를 달성할 수 있다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania