Centrala begrepp
본 연구는 심층 능동 추론 에이전트를 활용하여 병렬 동일 머신으로 구성된 제조 시스템의 에너지 효율성을 향상시키는 새로운 제어 방법을 제시합니다.
Sammanfattning
능동 추론 기반 에너지 효율적인 제어 연구: 병렬 동일 머신 적용
본 연구는 제조 시스템의 에너지 효율적인 제어 에이전트 개발에 능동 추론(AIF)을 적용하는 방법을 소개합니다. 능동 추론은 신경 과학에 기반을 둔 프레임워크로, 인지, 학습 및 행동을 통합하는 확률적 프레임워크를 제공하며, 불확실성 정량화 요소를 내재하고 있습니다. 본 연구에서는 심층 학습과 능동 추론 의사 결정 프레임워크를 결합한 새로운 분야인 심층 능동 추론을 살펴봅니다. 심층 능동 추론 에이전트를 활용하여 에너지 효율성을 향상시키기 위해 병렬 동일 머신 워크스테이션 제어에 중점을 둡니다. 문제의 확률적 특성과 지연된 정책 응답으로 인한 문제를 해결하기 위해 기존 에이전트 아키텍처에 대한 맞춤형 개선 사항을 소개합니다. 특히, 복잡한 계획의 필요성을 완화하기 위해 다단계 전이 및 하이브리드 지평선 방법을 도입합니다. 실험 결과는 이러한 개선 사항의 효과를 입증하고 능동 추론 기반 접근 방식의 잠재력을 강조합니다.
능동 추론 에이전트는 관찰에 대한 행동의 의존성을 강조하여 추론, 인지 및 행동을 통합하는 통합 확률적 프레임워크를 사용합니다. 에이전트는 세 가지 확률 변수, 즉 관찰, 잠재 상태 및 행동(즉, 시간 t에서 (ot, st, at))을 사용하여 환경과 상호 작용합니다. 프레임워크는 부분 관측 마르코프 결정 프로세스(POMDP)를 가정합니다. θ로 매개변수화된 에이전트의 생성 모델은 이러한 변수(즉, Pθ(o1:t, s1:t, a1:t−1))에 대해 정의됩니다. 에이전트는 일반적으로 -log Pθ(ot)로 정량화할 수 있는 놀라움을 줄이기 위해 행동합니다.
능동 추론 형식
능동 추론 에이전트는 세계를 표현하고 상호 작용하기 위해 추론 메커니즘과 결합된 내부 생성 모델을 사용합니다. 에이전트는 환경과 상호 작용하지만 관찰, 잠재 상태 및 행동을 나타내는 세 가지 확률 변수를 사용합니다. 능동 추론의 핵심은 자유 에너지 원리(FEP)이며, 이는 신경 추론 및 불확실성 하에서의 학습을 공식화합니다. 이 프레임워크를 통해 시스템 역학에 대한 완전한 지식 없이도 모델을 보정하고 의사 결정을 내릴 수 있는 에이전트를 개발할 수 있습니다.
에이전트는 세계와 상호 작용하면서 다음 두 단계를 거칩니다.
모델 보정: 에이전트는 예측을 맞추고 세계에 대한 표현을 개선하여 생성 모델을 보정합니다. 이는 변이 자유 에너지(VFE)를 최소화하여 수행됩니다.
의사 결정: 에이전트는 누적된 음의 예상 자유 에너지(EFE 또는 G)를 기반으로 능동 추론에서 의사 결정(즉, 행동 선택)을 내립니다. EFE는 선 preferred observations 에 대한 놀라움을 최소화하고 불확실성을 탐색하며 모델 매개변수에 대한 불확실성을 줄이는 것을 포함합니다.
아키텍처
능동 추론 프레임워크 내의 에이전트는 프레임워크 내에서 서로 얽혀 있는 다양한 모듈을 필요로 합니다. 형식주의에는 실현을 확대하기 위해 상각이 도입됩니다. 형식주의는 본질적으로 확률적이며 생성 요소를 나타내는 θ = {θs, θo}와 인식 요소를 나타내는 ϕ = {ϕs}의 두 가지 집합으로 매개변수화됩니다. 다음과 같은 매개변수화된 모듈을 사용하여 형식주의를 계산할 수 있습니다.
인코더(Qϕs(st)): 숨겨진 상태의 상각 추론(즉, 관찰 ˜ot와 해당 숨겨진 상태에 대한 분포 간의 매핑을 제공하는 추론 네트워크).
전이(Pθs(st+1|˜st, ˜at)): 샘플링된 행동과 현재 숨겨진 상태를 기반으로 다음 숨겨진 상태에 대한 분포를 생성합니다.
디코더(Pθo(ot+1|˜st+1)): 샘플링된 숨겨진 상태를 기반으로 예측에 대한 분포를 생성합니다.
신경망은 샘플과 해당 분포 간의 매핑을 나타냄으로써 이러한 모듈의 실현을 용이하게 할 수 있습니다. 실제로 미리 선택된(예: 가우시안) 분포의 매개변수를 근사할 수 있습니다. 여기서는 공분산이 없다고 가정하고(즉, 대각 가우시안) 다변량 가우시안 분포를 사용하여 상태 공간을 구체적으로 모델링합니다. VFE를 사용하여 세 가지 네트워크를 모두 엔드 투 엔드 방식으로 훈련할 수 있습니다. 상태 공간 내에 통합된 것으로 간주될 수 있는 행동과 전이를 제외하고 구조는 변이 자동 인코더와 유사합니다. 두 가지 모두에 대한 훈련에는 Eq. 1에 지정된 대로 ELBO 최적화가 포함됩니다.
언급된 아키텍처를 사용하면 에이전트는 주어진 정책(즉, π)에 대해 Eq. 5에서 EFE를 계산할 수 있으며, 이는 일련의 행동입니다. 따라서 Eq. 2를 통해 행동을 선택할 확률을 계산할 수 있습니다. 더 나은 의사 결정을 내리기 위해 에이전트는 위에서 언급한 아키텍처를 사용하여 미래 궤적을 시뮬레이션하여 미리 계획할 수 있습니다. 그러나 정책 공간이 미래로 기하급수적으로 증가함에 따라 가능한 모든 시나리오를 평가하는 것은 불가능합니다.
개선 사항
본 연구에서는 에이전트를 설계하고 기존 아키텍처를 기반으로 활용하기 위해 다양한 측면을 살펴봅니다. 먼저 연구 중인 문제와 관련된 특징과 요구 사항이 에이전트에 미치는 영향을 살펴봅니다. 그런 다음 이러한 문제를 해결하기 위한 솔루션을 제안하고 일관된 에이전트 설계를 소개합니다.
경험 재생: 생성 모델은 능동 추론 및 예측 코딩의 핵심을 포괄합니다. 따라서 모든 능동 추론 기반 에이전트의 성능은 정확성에 크게 좌우됩니다. 모델 훈련을 개선하기 위해 서로 다른 단계에서 (ot, at, ot+1)을 저장하는 메모리를 사용하여 경험 재생을 도입합니다. 훈련하는 동안 메모리에서 경험 배치를 샘플링하고 최신 경험도 포함되도록 합니다. 그러나 모든 배치된 경험에 대해 최신 경험을 기반으로 ωt를 활용합니다.
하이브리드 지평선: 즉각적인 다음 예측에 의존하는 EFE의 짧은 지평선에서 발생하는 제한 사항을 해결하기 위해 더 긴 지평선을 고려하기 위해 보조 용어로 플래너를 보강할 것을 제안합니다. Q-learning 및 개선된 변형인 심층 Q-learning은 경험 재생으로부터의 보상을 활용하여 상태-행동 쌍에 대한 Q-값을 업데이트하는 더 긴 지평선을 가진 모델 없는 플래너 역할을 할 수 있습니다. Q-값은 1단계 예측에서도 장기적인 결과를 고려한 예상 수익을 나타냅니다. 따라서 Qϕa(at)를 수정하여 행동의 상각 추론을 나타내고 Softmax 함수를 사용하여 관찰 ˜ot(또는 샘플링된 예측)를 정규화된 행동 확률에 매핑하고 경험 재생으로부터의 보상을 기반으로 심층 Q-learning 업데이트로 훈련합니다. 장단기 지평선의 기여도의 균형을 맞추기 위해 하이퍼파라미터 γ를 도입합니다.
다단계 전이 및 계획: 연구 중인 시스템의 확률적 특성과 긴 영향 지평선을 감안할 때 1단계 전이는 관찰 및 상태에 큰 변화를 일으키지 않아 구분할 수 없는 EFE 용어로 이어질 수 있습니다. 따라서 모델은 1단계를 넘어 전이를 학습하고 더 먼 미래를 예측하여 다양한 정책의 영향을 구분해야 합니다. 전이 모듈을 수정하여 하이퍼파라미터(예: s = 90)로 제어되는 여러 단계를 허용하여 정책(즉, 일련의 행동)이 주어지면 다단계 전이를 가능하게 합니다. 정책에서 일련의 행동을 원핫 벡터로 나타내는 것은 차원이 높을 수 있으므로 정수 인코딩을 근사값으로 사용합니다. 이 경우 작업(또는 기계 수)이 덜 범주적이고 오히려 연속적인 것으로 간주될 수 있기 때문에 이것이 가능합니다. 계획하는 동안 각 행동에 대해 전이에서 반복된 행동을 활용하고 그에 따라 EFE를 계산합니다. 이 방법은 반복적인 행동 시뮬레이션을 사용하여 단기간에 걸쳐 행동의 영향을 평가합니다. 이러한 근사치는 EFE를 기반으로 수평선에 걸쳐 서로 다른 행동을 구분하는 데 도움이 됩니다. 따라서 단일 다단계 전이조차도 간단하고 계산 효율적인 플래너 역할을 할 수 있습니다. 더 깊은 시뮬레이션을 위해 반복적인 전이의 MCTS와 결합할 수 있습니다. 또는 각 행동에 대해 반복적인 전이로 시작하여 다음 정책을 사용하여 특정 깊이까지 시뮬레이션하는 덜 비싼 플래너와 결합할 수 있습니다.