言語モデルには体系的な攻撃的ステレオタイプ(SOS)バイアスが存在し、これは特に社会的に疎外されたグループに対して顕著である。このバイアスは、オンラインでこれらのグループが経験する憎しみを反映している。しかし、このバイアスを除去する一般的な手法は効果的ではなく、むしろバイアスを悪化させる可能性がある。また、SOSバイアスは言語モデルの性能には大きな影響を与えないが、公平性には影響を及ぼす。