Die Studie entwickelt einen Rahmen, um die in Sprachmodellen repräsentierten Meinungen quantitativ zu messen. Dafür wird zunächst ein Datensatz mit Fragen und Antworten aus internationalen Umfragen erstellt, der diverse Meinungen zu globalen Themen abbildet. Anschließend wird eine Metrik definiert, die die Ähnlichkeit zwischen den vom Sprachmodell generierten Umfrageantworten und den menschlichen Antworten, konditioniert auf das jeweilige Land, quantifiziert.
Mit diesem Rahmen werden drei Experimente mit einem Sprachmodell durchgeführt, das darauf trainiert wurde, hilfreich, ehrlich und harmlos zu sein. Im Standardfall tendieren die Modellausgaben dazu, den Meinungen bestimmter Bevölkerungsgruppen, wie den USA, einigen europäischen und südamerikanischen Ländern, ähnlicher zu sein, was auf mögliche Verzerrungen hinweist. Wenn das Modell explizit aufgefordert wird, eine bestimmte Länderperspektive zu berücksichtigen, verschieben sich die Antworten, um den Meinungen der angefragten Bevölkerungen ähnlicher zu sein, können aber stereotype Annahmen widerspiegeln. Wenn die Umfragefragen in eine Zielsprache übersetzt werden, werden die Modellausgaben nicht unbedingt den Meinungen der Sprecher dieser Sprachen am ähnlichsten.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Esin Durmus,... lúc arxiv.org 04-15-2024
https://arxiv.org/pdf/2306.16388.pdfYêu cầu sâu hơn