본 논문에서는 예측-최적화 프레임워크에서 기존의 서로게이트 손실 함수보다 우수한 성능을 보이는 새로운 서로게이트 손실 함수인 Perturbation Gradient (PG) 손실 함수를 제안하며, 특히 잘못 지정된 설정에서도 점근적으로 최상의 정책을 달성할 수 있음을 보여줍니다.
비마르코프 보상 구조를 가진 현실 세계의 문제를 해결하기 위해, 본 논문에서는 가방 보상 기반 강화 학습 (RLBR) 프레임워크를 제안하고, 가방 내의 맥락 정보를 해석하고 환경 역동성을 이해하여 보상을 효율적으로 재분배하는 보상 모델인 보상 가방 트랜스포머 (RBT)를 소개합니다.
본 논문에서는 제한된 자원을 가진 환경에서 여러 에이전트가 협력하여 최적의 정책을 학습하는 방법을 제시하며, 특히 제약된 확률적 선형 밴딧 문제에 대한 분산형 알고리즘 MA-OPLB를 소개하고 성능을 분석합니다.
본 논문에서는 비평활 복합 문제를 해결하기 위해 메트릭의 대칭 랭크-1 업데이트(SR1 준 뉴턴)를 사용하는 두 가지 정규화 근위 준 뉴턴 방법을 제안하고, 이 방법들이 초기화와 무관하게 전역적 비점근 초선형 수렴 속도를 달성함을 보여줍니다.
고차원 데이터에서 로지스틱 회귀 모델의 경험적 위험 함수에 대한 새로운 차원 독립적 균일 집중 경계를 제시하고, 이를 통해 기존 방법보다 완화된 균일 대수 법칙의 충분 조건을 도출합니다.
본 논문에서는 머신러닝과 딥러닝 알고리즘의 기본 개념, 유형, 응용 프로그램 및 미래 방향에 대해 포괄적으로 살펴봅니다.
본 논문에서는 상태 및 보상 분포에 대한 결합적 불확실성을 활용하여 낙관적 탐색을 수행하는 새로운 모델 기반 강화 학습 알고리즘인 HOT-GP를 제안합니다. HOT-GP는 가우시안 프로세스를 사용하여 보상-역학 관계를 모델링하고, 낙관적인 보상과 관련된 그럴듯한 전이를 시뮬레이션하여 샘플 효율성을 향상시킵니다.
본 논문에서는 심볼릭 엔진과 GPT 트랜스포머 모델을 결합하여 수학적 표현식의 적분을 단계별로 증명하는 방법을 제시합니다.