Centrala begrepp
대형 언어 모델은 이전에 생성한 응답들 중에서 가장 적절한 것을 선택하는 능력이 직접 좋은 응답을 생성하는 능력보다 뛰어나지 않다.
Sammanfattning
이 연구는 대형 언어 모델(LLM)의 생성 능력과 구별 능력을 비교하였다. 연구진은 수학, 상식 문제 해결, 진실성 있는 질문 답변, 지시 따르기 등 다양한 과제에서 실험을 진행했다. 실험 결과, LLM의 구별 능력이 생성 능력보다 뛰어나지 않다는 것을 발견했다. 이는 LLM이 자체적으로 피드백을 제공하여 스스로 개선하기 어려울 수 있음을 시사한다.
추가 실험을 통해 연구진은 다음과 같은 사실을 확인했다:
- 구별 단계에 더 많은 예시를 제공해도 구별 능력이 크게 향상되지 않음
- 체인 오브 쓰ought 설명을 추가해도 구별 능력 향상에 큰 영향 없음
- 자기 강화 학습 모델에서도 유사한 패턴 관찰
이러한 결과는 LLM의 자기 개선 능력에 대한 우려를 제기한다. 연구진은 자기 강화 학습 기법의 효과가 제한적일 수 있다고 제안한다.
Statistik
대형 언어 모델의 생성 성능은 평균 43.0%이지만, 구별 성능은 46.2%로 3.2% 높다.
대형 언어 모델의 생성 성능은 평균 53.2%이지만, 구별 성능은 56.4%로 3.2% 높다.
대형 언어 모델의 생성 성능은 평균 4.87점이지만, 구별 성능은 4.75점으로 0.12점 낮다.
Citat
"LLMs are not better at discriminating among previously-generated alternatives than generating initial responses."
"LLMs are not universally better at discriminating among previously generated alternatives than generating initial responses."