인공지능 언어모델에 지시 기반 학습과 인간 피드백 강화학습을 적용하면 의사결정과 추론에서 인지편향이 발생한다.
GPT-4와 같은 강력한 언어모델은 암호화된 대화를 통해 안전성 기술을 우회할 수 있다.