Dieser Artikel präsentiert einen umfassenden Ansatz zur Sicherheit von KI-Inhalten, insbesondere im Kontext von Großen Sprachmodellen (LLMs) und generativer KI. Der Hauptfokus liegt auf der Erstellung einer detaillierten Taxonomie für Sicherheitsrisiken, der Erstellung eines hochwertigen Datensatzes für Annotationen sowie der Entwicklung eines Ensembles von LLM-basierten Sicherheitsexperten.
Zunächst wird eine Taxonomie mit 13 Hauptkategorien und 9 Unterkategorien für Sicherheitsrisiken definiert, die die wichtigsten Risiken in der Interaktion zwischen Menschen und LLMs abdeckt. Darauf aufbauend wird der AEGISSAFETYDATASET erstellt, ein Datensatz mit über 26.000 annotierten Interaktionsbeispielen zwischen Menschen und LLMs.
Basierend auf diesem Datensatz werden mehrere LLM-basierte Sicherheitsmodelle, die AEGISSAFETYEXPERTS, trainiert. Diese Modelle zeigen eine hohe Leistungsfähigkeit und Robustheit gegenüber State-of-the-Art-Ansätzen sowie Anpassungsfähigkeit an neue Sicherheitsrichtlinien.
Darüber hinaus wird ein neuartiger Ansatz für die adaptive Online-Moderation von Inhalten vorgestellt, der AEGIS. Dieser nutzt ein No-Regret-Lernverfahren mit einem Ensemble der AEGISSAFETYEXPERTS. Dadurch kann sich das System dynamisch an sich ändernde Datenverteilungen und Sicherheitsrichtlinien anpassen und von Rückmeldungen des Sicherheitsteams lernen.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Shaona Ghosh... pada arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.05993.pdfPertanyaan yang Lebih Dalam