Core Concepts
중앙화된 외부 관찰자(또는 주체)가 에이전트의 반응을 탐색하고 행동-반응 매핑에 대한 간단한 국소적 매개변수 추정치를 반복적으로 업데이트하는 새로운 능동 학습 체계를 소개한다. 이를 통해 정상 상태 행동 프로파일을 식별할 수 있다.
Abstract
이 논문은 경쟁적인 다중 에이전트 의사결정 및 제어 문제를 해결하기 위한 새로운 능동 학습 방법을 제안한다.
중앙화된 외부 관찰자(또는 주체)가 에이전트의 반응을 쿼리하고 행동-반응 매핑에 대한 간단한 국소적 매개변수 추정치를 반복적으로 업데이트한다.
매우 일반적인 작업 가정 하에서(정상 상태 프로파일이 존재한다고 가정하지 않음), 제안된 능동 학습 방법론의 점근적 특성을 평가하기 위한 충분 조건을 수립한다. 이러한 조건은 정상 상태 행동 프로파일의 존재에 대한 증명으로도 작용한다.
전형적인 경쟁적 다중 에이전트 제어 및 의사결정 문제에 대한 광범위한 수치 시뮬레이션을 통해 제안된 학습 기반 접근 방식의 실용적 효과를 입증한다.
Stats
각 사용자 i의 개인 비용 함수는 Ji(xi, σ(x)) = ∥xi∥2
Qi + c⊤
i xi + (a(σ(x) + d) + b1T)⊤xi 의 형태이다.
여기서 σ(x)는 전체 EV 사용자의 총 수요이며, a > 0는 수요 가격 탄력성의 역수, b > 0는 기준 가격, d ∈RT
≥0는 비탄력적 수요의 정규화된 평균이다.
각 사용자는 최소 충전량 제약 1⊤
T xi ≥γi ≥0, 충전량 상한 xi ∈[0, ¯
xi]T, 그리드 제한 σ(x) + d ∈[0, ¯
c]T 등을 만족해야 한다.
Quotes
"이러한 간접 제어 방식은 가격 신호에 대한 사용자의 소비 반응을 정확하게 예측하는 것에 의존한다. 따라서 제한된 사용자 의사결정 프로세스 지식 하에서 이러한 예측 작업을 수행할 수 있는 도구를 개발하는 것이 중요하다."
"제안된 학습 메커니즘을 통해 중앙 주체는 정상 상태 지점 예측 작업과 관련하여 정보가 풍부한 데이터를 수집하고 활용할 수 있다."