Die Studie befasst sich mit dem Problem der generalisierten linearen kontextuellen Banditen unter Berücksichtigung von Anforderungen an die begrenzte Anpassungsfähigkeit. Es werden zwei Algorithmen, B-GLinCB und RS-GLinCB, vorgestellt, die jeweils zwei gängige Modelle für begrenzte Anpassungsfähigkeit adressieren:
Batch-Lernen mit stochastischen Kontexten:
Seltene Richtlinienwechsel mit adversariellen Kontexten:
Darüber hinaus eliminieren beide Algorithmen die Abhängigkeit vom Nichtlinearitätsparameter κ, was ein unabhängiges Interesse darstellt.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Ayush Sawarn... om arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.06831.pdfDiepere vragen