이 논문에서는 대규모 언어 모델(LLM)의 한계와 약점을 이해하고 탐구하기 위한 도구인 PERPLEXED와 CODETOKENIZERS를 소개한다.
PERPLEXED는 모델의 토큰 단위 성능을 분석하여 모델이 혼란스러워하는 부분을 파악할 수 있게 해준다. 이를 통해 모델의 강점과 약점을 더 세부적으로 이해할 수 있다.
CODETOKENIZERS는 코드 데이터에서 Byte Pair Encoding (BPE) 토큰과 Abstract Syntax Tree (AST) 노드를 정렬시켜 준다. 이를 통해 코드 모델의 성능을 코드 구조 단위로 분석할 수 있다.
이 논문에서는 PERPLEXED와 CODETOKENIZERS를 활용하여 최근 공개된 코드 생성 모델인 SantaCoder의 성능을 분석했다. 분석 결과, SantaCoder는 구문적으로 올바르지 않은 코드 구조를 예측하는 데 가장 어려움을 겪었으며, 내부 메서드 호출을 외부 메서드 호출보다 더 잘 예측하지 못했다. 이를 통해 현재 코드 생성 모델의 한계를 확인할 수 있었다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문