Die Studie befasst sich mit dem Problem der generalisierten linearen kontextuellen Banditen unter Berücksichtigung von Anforderungen an die begrenzte Anpassungsfähigkeit. Es werden zwei Algorithmen, B-GLinCB und RS-GLinCB, vorgestellt, die jeweils zwei gängige Modelle für begrenzte Anpassungsfähigkeit adressieren:
Batch-Lernen mit stochastischen Kontexten:
Seltene Richtlinienwechsel mit adversariellen Kontexten:
Darüber hinaus eliminieren beide Algorithmen die Abhängigkeit vom Nichtlinearitätsparameter κ, was ein unabhängiges Interesse darstellt.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Ayush Sawarn... ที่ arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.06831.pdfสอบถามเพิ่มเติม