Core Concepts
전문가의 행동 진화 이력을 활용하여 전문가 정책 및 보상 매개변수를 효율적으로 학습할 수 있는 역 배치 컨텍스트 밴딧 프레임워크를 제안한다.
Abstract
이 논문은 전문가의 행동 진화 이력을 활용하여 전문가 정책 및 보상 매개변수를 효율적으로 학습할 수 있는 역 배치 컨텍스트 밴딧(IBCB) 프레임워크를 제안한다.
- 기존 모방 학습 방법은 고정된 전문가의 행동 데이터만을 활용하지만, 실제 스트리밍 응용 프로그램에서는 전문가의 행동이 시간에 따라 진화하는 경우가 많다.
- IBCB는 전문가의 행동 진화 이력을 활용하여 전문가 정책 및 보상 매개변수를 동시에 학습할 수 있는 통합 프레임워크를 제공한다.
- IBCB는 결정론적 및 무작위 밴딧 정책 모두에 적용 가능하며, 선형 제약 조건을 활용하여 간단한 2차 계획법 문제로 정식화할 수 있다.
- 실험 결과, IBCB는 기존 모방 학습 알고리즘에 비해 우수한 성능을 보이며, 특히 분포 drift 및 모순적인 데이터에 강건한 것으로 나타났다.
Stats
전문가의 행동 진화 이력에서 추출한 주요 통계 지표는 다음과 같다:
전문가의 행동 진화 이력에는 전문가가 동일한 상황에서 서로 다른 행동을 취하는 모순적인 데이터가 존재한다.
전문가의 행동 진화 이력에는 전문가가 초보에서 숙련가로 발전하는 과정이 포함되어 있다.
전문가의 행동 진화 이력에는 전문가의 보상 정보가 포함되어 있지 않다.
Quotes
"전문가의 행동 진화 이력에는 전문가가 동일한 상황에서 서로 다른 행동을 취하는 모순적인 데이터가 존재한다."
"전문가의 행동 진화 이력에는 전문가가 초보에서 숙련가로 발전하는 과정이 포함되어 있다."
"전문가의 행동 진화 이력에는 전문가의 보상 정보가 포함되어 있지 않다."