大規模言語モデルは人間の認知的弱点である「白熊現象」を共有しており、これが攻撃に悪用される可能性がある。モデルの構造的特徴と表現空間の線形性が、この現象の原因となっている。認知療法の手法を応用した防御策によって、この攻撃を軽減できることが示された。