Основні поняття
강화 학습 기반 알고리즘을 사용하여 마르코프 소스에 대한 지연 없는 최적 코드를 설계할 수 있다.
Анотація
이 논문은 지연 없는 손실 소스 코딩 문제를 다룹니다. 소스 {Xt}t≥0는 유한 알파벳 마르코프 프로세스이며, 인코더는 지연 없이 소스 기호를 인코딩하고 디코더는 지연 없이 재구성해야 합니다. 이 문제는 강화 학습 기술을 사용하여 해결할 수 있습니다.
논문의 주요 내용은 다음과 같습니다:
강화 학습 기반 알고리즘을 제안하여 지연 없는 최적 코드를 설계합니다. 이 알고리즘은 상태 공간을 유한하게 양자화하고 Q-learning을 적용합니다.
할인 비용 문제에 대해 제안된 알고리즘의 점근적 최적성을 증명합니다.
할인 비용 최적 정책을 이용하여 평균 비용 문제에 대한 근사 최적 정책을 구축합니다.
마르코프 과정의 안정성 및 유일한 불변 측도에 대한 기술적인 결과를 제공합니다.
시뮬레이션을 통해 제안된 알고리즘의 성능을 기존 방법과 비교합니다.
Статистика
소스 {Xt}t≥0는 유한 알파벳 마르코프 프로세스이며 불가역적이고 주기적이지 않습니다.
채널 입력 알파벳 크기 M은 유한합니다.
재구성 알파벳 크기 |ˆ
X|는 유한합니다.
비용 함수 d(x, ˆ
x)는 0과 무한 사이의 값을 가집니다.
Цитати
"강화 학습 기반 알고리즘을 사용하여 마르코프 소스에 대한 지연 없는 최적 코드를 설계할 수 있다."
"제안된 알고리즘의 점근적 최적성을 수학적으로 증명하였다."
"마르코프 과정의 안정성 및 유일한 불변 측도에 대한 기술적인 결과를 제공하였다."