Die Studie befasst sich mit dem Problem der generalisierten linearen kontextuellen Banditen unter Berücksichtigung von Anforderungen an die begrenzte Anpassungsfähigkeit. Es werden zwei Algorithmen, B-GLinCB und RS-GLinCB, vorgestellt, die jeweils zwei gängige Modelle für begrenzte Anpassungsfähigkeit adressieren:
Batch-Lernen mit stochastischen Kontexten:
Seltene Richtlinienwechsel mit adversariellen Kontexten:
Darüber hinaus eliminieren beide Algorithmen die Abhängigkeit vom Nichtlinearitätsparameter κ, was ein unabhängiges Interesse darstellt.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Ayush Sawarn... في arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.06831.pdfاستفسارات أعمق