Die Autoren zeigen, dass es möglich ist, die Sicherheitsverfeinerung von Llama 2-Chat 13B für weniger als 200 US-Dollar zu entfernen, ohne die allgemeinen Fähigkeiten des Modells zu beeinträchtigen. Sie evaluieren das daraus resultierende Modell, das sie "BadLlama" nennen, auf zwei Benchmarks für schädliches Verhalten und finden, dass es deutlich weniger Weigerungen aufweist als das ursprüngliche Llama 2-Chat 13B-Modell.
Die Autoren argumentieren, dass Sicherheitsverfeinerungen keine effektive Kontrolle gegen den Missbrauch von Sprachmodellen darstellen, wenn deren Gewichte öffentlich zugänglich sind. Sie weisen darauf hin, dass zukünftige, leistungsfähigere Sprachmodelle ein noch größeres Schadenspotenzial haben werden und dass Entwickler die Risiken der Veröffentlichung von Modellgewichten sorgfältig abwägen müssen.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Pranav Gade,... a las arxiv.org 03-25-2024
https://arxiv.org/pdf/2311.00117.pdfConsultas más profundas