In dieser Arbeit wird ein Ansatz für semantische Kommunikation durch Reinforcement-Lernen vorgestellt, der den stochastischen Richtungsgradienten (SPG) nutzt. Dadurch können Sender und Empfänger unabhängig voneinander optimiert werden, ohne ein bekanntes oder differenzierbares Kanalmodell vorauszusetzen. Dies ist ein entscheidender Schritt in Richtung einer praktischen Umsetzung.
Der Autor leitet die Anwendung des SPG sowohl für klassische als auch für semantische Kommunikation aus der Maximierung der gegenseitigen Information zwischen Ziel- und Empfangsvariablen her. Numerische Ergebnisse zeigen, dass der Ansatz eine vergleichbare Leistung wie ein modellbasierter Ansatz erzielt, allerdings mit einer langsameren Konvergenzrate.
Für das Beispiel der verteilten Bildklassifizierung wird der RL-SINFONY-Ansatz evaluiert. Auf dem MNIST-Datensatz erreicht RL-SINFONY eine ähnliche Leistung wie der modellbasierte SINFONY-Ansatz, benötigt jedoch deutlich mehr Trainingsepochan. Auf dem anspruchsvolleren CIFAR10-Datensatz zeigt sich, dass die langsame Konvergenz des RL-Ansatzes eine Herausforderung darstellt, die in zukünftigen Arbeiten adressiert werden muss.
翻譯成其他語言
從原文內容
arxiv.org
深入探究