핵심 개념
대규모 언어 모델에 대한 지시 튜닝은 인지 모델링 관점에서 인간과 유사하지 않은 결과를 초래한다.
초록
이 연구는 대규모 언어 모델(LLM)의 지시 튜닝이 인간 독서 행동 시뮬레이션에 도움이 되지 않는다는 것을 보여준다.
구체적으로:
- 지시 튜닝된 LLM은 기반 LLM에 비해 인간 독서 행동을 더 잘 시뮬레이션하지 못한다.
- 프롬프팅 기법을 사용해도 지시 튜닝된 LLM의 성능이 개선되지 않으며, 여전히 기반 LLM에 미치지 못한다.
- 메타언어학적 프롬프팅을 통해 LLM에게 단어의 처리 비용을 직접 묻는 것도 실제 독서 시간을 잘 예측하지 못한다.
이러한 결과는 지시 튜닝이나 프롬프팅과 같은 최근 발전에도 불구하고, 단순한 단어 확률 측정이 여전히 인간 독서 행동을 가장 잘 예측할 수 있음을 보여준다.
통계
지시 튜닝된 LLM은 기반 LLM에 비해 독서 시간 예측력이 낮은 경우가 많다.
프롬프팅을 사용해도 지시 튜닝된 LLM의 성능이 기반 LLM에 미치지 못한다.
메타언어학적 프롬프팅을 통한 LLM의 단어 처리 비용 예측은 실제 독서 시간과 잘 일치하지 않는다.