Khái niệm cốt lõi
인공지능 언어모델에 지시 기반 학습과 인간 피드백 강화학습을 적용하면 의사결정과 추론에서 인지편향이 발생한다.
Tóm tắt
이 연구는 지시 기반 학습(IT)과 인간 피드백 강화학습(RLHF)이 대형 언어모델(LM)의 의사결정과 추론에 미치는 영향을 조사했다. 특히 세 가지 인지편향 - 유인 효과, 확실성 효과, 신념 편향 - 을 분석했다.
연구 결과:
- IT와 RLHF로 학습된 모델들은 편향이 더 강하게 나타났다. 이는 모델 성능 향상을 위한 미세조정 과정에서 의도치 않게 편향이 증폭되었음을 시사한다.
- 모델의 편향 행동은 인간의 인지편향 이론과 일치하는 경향을 보였다. 이는 인간의 의사결정 과정에 내재된 편향이 모델 학습에 반영되었을 가능성을 시사한다.
- GPT4와 같은 최신 모델에서도 여전히 강한 편향이 관찰되었다. 이는 편향 완화를 위한 노력에도 불구하고 과제 수행 정확도 향상과 편향 감소 사이의 trade-off가 존재함을 보여준다.
이 연구 결과는 지시 기반 학습과 인간 피드백 강화학습이 언어모델의 인지편향 발현에 미치는 영향을 이해하는 데 중요한 단계가 될 것이다. 향후 더 신뢰할 수 있고 편향이 적은 언어모델 개발을 위해서는 이러한 편향의 근원을 파악하고 해결하는 것이 필수적이다.
Thống kê
유인 효과 실험에서 목표 옵션을 선택한 비율이 처리 집단에서 대조 집단보다 20% 더 높았다.
확실성 효과 실험에서 처리 집단의 모델은 대조 집단보다 67% 더 확실한 옵션을 선택했다.
신념 편향 실험에서 처리 집단의 모델은 대조 집단보다 65% 더 많은 논리적으로 타당하지 않은 결론을 수용했다.
Trích dẫn
"지시 기반 학습(IT)과 인간 피드백 강화학습(RLHF)은 대형 언어모델(LM)의 능력을 크게 향상시킬 수 있지만, 이러한 미세조정 방법이 잠재적으로 부작용을 일으킬 수 있다는 것은 잘 알려져 있지 않다."
"우리의 연구 결과는 IT와 RLHF 적용 시 언어모델에 인지편향이 도입되거나 증폭될 수 있음을 보여준다."