Das Paper untersucht das Online-Lernen mit unbekannten Einschränkungen, wobei Sicherheitsbeschränkungen unbekannt sind. Es präsentiert einen Algorithmus, der Regret minimiert und gleichzeitig Sicherheitsbeschränkungen einhält. Die Arbeit umfasst theoretische Analysen, Algorithmen für lineare und generalisierte lineare Einstellungen sowie die Handhabung von Polytop- und Vektorfeedbacks. Es diskutiert auch die Notwendigkeit eines Mapping-Algorithmus für niedrigen Regret.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Karthik Srid... at arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.04033.pdfDeeper Inquiries