핵심 개념
온라인 전략적 분류 문제에서 학습자는 에이전트의 전략적 행동에도 불구하고 에이전트의 실제 라벨을 정확하게 예측하는 분류기를 찾는다. 이를 위해 학습자는 에이전트의 조작된 특징 벡터에 대한 예측 오류와 조작 횟수를 최소화하고, 최대 마진 분류기를 복구하는 알고리즘을 제안한다.
초록
이 논문은 온라인 전략적 분류 문제를 다룹니다. 에이전트는 자신의 실제 특징 벡터를 조작하여 긍정적인 예측 라벨을 얻을 수 있지만, 이에 따른 비용이 발생합니다. 학습자는 에이전트의 조작된 특징 벡터만 관찰할 수 있지만, 에이전트의 실제 라벨을 예측하고자 합니다.
논문은 다음과 같은 내용을 다룹니다:
- 에이전트의 조작 방향과 비용 함수에 대한 가정을 제시합니다.
- 대리 데이터(proxy data)라는 개념을 도입하여, 에이전트의 조작된 특징 벡터와 실제 라벨을 활용하여 실제 특징 벡터를 추정합니다.
- 세 가지 알고리즘을 제안합니다:
- 알고리즘 1: 대리 데이터에 대한 오프라인 최대 마진 문제를 반복적으로 해결합니다.
- 알고리즘 2: 알고리즘 1의 근사 버전으로, 각 반복에서 전체 최대 마진 문제를 해결할 필요가 없습니다.
- 알고리즘 3: 기존 전략적 퍼셉트론 알고리즘을 일반화한 버전입니다.
- 제안된 알고리즘들의 이론적 성능 보장을 제공합니다:
- 오류 및 조작 횟수 유한 보장
- 최대 마진 분류기로의 수렴 보장
통계
에이전트의 실제 특징 벡터 A와 라벨 label(A)의 차이 ∥A - r(A, y, b)∥은 최대 2∥y∥∗/c입니다.
대리 데이터 s(A, y, b)와 실제 특징 벡터 A의 차이 ∥s(A, y, b) - A∥은 최대 2∥y∥∗/c입니다.
인용구
"에이전트는 자신의 실제 특징 벡터를 조작하여 긍정적인 예측 라벨을 얻을 수 있지만, 이에 따른 비용이 발생합니다."
"학습자는 에이전트의 조작된 특징 벡터만 관찰할 수 있지만, 에이전트의 실제 라벨을 예측하고자 합니다."