Grunnleggende konsepter
본 논문은 프롬프트를 이용하여 유한한 크기의 트랜스포머 모델이 모든 계산 가능한 함수를 표현하고 실행할 수 있음을 증명하여, 프롬프트가 튜링 완전성을 지닌다는 것을 보여줍니다.
본 논문은 대규모 언어 모델(LLM) 시대의 핵심 패러다임인 프롬프트 방식에 대한 최초의 이론적 연구를 제시합니다. 저자들은 프롬프트가 튜링 완전성을 지닌다는 것을 증명합니다. 즉, 모든 계산 가능한 함수에 대해 이를 계산하는 프롬프트가 존재하며, 유한한 크기의 트랜스포머 모델이 이 프롬프트를 이용하여 해당 함수를 계산할 수 있음을 보여줍니다.
2-PTM 모델 제시: 저자들은 튜링 머신을 효율적으로 시뮬레이션할 수 있는 새로운 계산 모델인 2-PTM(Two-Tape Post-Turing Machines)을 제시합니다. 2-PTM은 두 개의 무한한 테이프를 사용하는 명령형 모델로, 유한한 알파벳을 사용하여 프롬프트로 쉽게 인코딩될 수 있습니다.
프롬프트 구성: 임의의 계산 가능한 함수 ϕ에 대해, 2-PTM을 사용하여 ϕ를 계산하는 프롬프트 πϕ를 구성합니다. 프롬프트는 함수 ϕ에 대한 형식적인 설명을 인코딩하며, 트랜스포머 모델은 이를 실행합니다.
CoT를 이용한 실행 기록: 트랜스포머 모델은 CoT(Chain-of-Thought) 단계를 사용하여 2-PTM의 실행 단계를 기록합니다. 각 CoT 단계는 현재 명령어, 테이프 A와 B의 현재 가리키는 셀 등 2-PTM의 상태를 나타냅니다.
입력 토크나이저: 입력 x를 인코딩하기 위해 입력 토크나이저를 사용합니다. 토크나이저는 입력 x를 2-PTM의 테이프 A에 쓰는 가상의 프로세스를 나타내는 CoT 단계로 변환합니다.
트랜스포머 모델 구성: ReLU 활성화, 레이어 정규화 및 인과적 어텐션을 사용하여 프롬프트를 실행하는 디코더 전용 트랜스포머 모델 Γ를 구성합니다. 트랜스포머는 CoT 단계를 통해 2-PTM의 실행을 시뮬레이션하고, 프롬프트에 따라 입력을 처리하여 출력을 생성합니다.