Die Studie befasst sich mit dem Problem der generalisierten linearen kontextuellen Banditen unter Berücksichtigung von Anforderungen an die begrenzte Anpassungsfähigkeit. Es werden zwei Algorithmen, B-GLinCB und RS-GLinCB, vorgestellt, die jeweils zwei gängige Modelle für begrenzte Anpassungsfähigkeit adressieren:
Batch-Lernen mit stochastischen Kontexten:
Seltene Richtlinienwechsel mit adversariellen Kontexten:
Darüber hinaus eliminieren beide Algorithmen die Abhängigkeit vom Nichtlinearitätsparameter κ, was ein unabhängiges Interesse darstellt.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Ayush Sawarn... о arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.06831.pdfГлибші Запити