이 연구는 보조 함수를 활용하는 언어 모델의 능력을 종합적으로 평가하기 위해 수행되었다. 먼저 연구진은 사람이 직접 작성한 예제로 구성된 HumanExtension 데이터셋을 구축했다. 이 데이터셋에는 한 함수가 다른 함수를 보조하는 관계가 포함되어 있다.
HumanExtension 데이터셋을 활용하여 연구진은 다음과 같은 실험을 수행했다:
실험 결과, 대부분의 언어 모델이 적절한 보조 함수를 활용할 때 큰 성능 향상을 보였다. 일부 고급 모델의 경우 단계적으로 두 함수를 구현하는 자기 향상 행동도 관찰되었다. 그러나 보조 함수 활용 능력은 기능과 무관한 요인에 따라 다양하게 나타나, 모델의 강건성에 대한 문제가 제기되었다. 또한 구현 스타일 분석 결과, 모델은 보조 함수를 호출하기보다 내부 로직을 반복하는 경향이 있어, 보조 함수 호출 능력 향상이 필요한 것으로 나타났다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Seonghyeon L... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10575.pdfDeeper Inquiries