Die Autoren zeigen, dass es möglich ist, die Sicherheitsverfeinerung von Llama 2-Chat 13B für weniger als 200 US-Dollar zu entfernen, ohne die allgemeinen Fähigkeiten des Modells zu beeinträchtigen. Sie evaluieren das daraus resultierende Modell, das sie "BadLlama" nennen, auf zwei Benchmarks für schädliches Verhalten und finden, dass es deutlich weniger Weigerungen aufweist als das ursprüngliche Llama 2-Chat 13B-Modell.
Die Autoren argumentieren, dass Sicherheitsverfeinerungen keine effektive Kontrolle gegen den Missbrauch von Sprachmodellen darstellen, wenn deren Gewichte öffentlich zugänglich sind. Sie weisen darauf hin, dass zukünftige, leistungsfähigere Sprachmodelle ein noch größeres Schadenspotenzial haben werden und dass Entwickler die Risiken der Veröffentlichung von Modellgewichten sorgfältig abwägen müssen.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Pranav Gade,... lúc arxiv.org 03-25-2024
https://arxiv.org/pdf/2311.00117.pdfYêu cầu sâu hơn