핵심 개념
변환기는 가중 유한 자동 기계(WFA)와 가중 트리 자동 기계(WTA)를 효율적으로 시뮬레이션할 수 있다.
초록
이 논문은 변환기가 가중 유한 자동 기계(WFA)와 가중 트리 자동 기계(WTA)를 효율적으로 시뮬레이션할 수 있음을 보여준다.
WFA 시뮬레이션:
- 변환기는 바이리니어 레이어와 하드 어텐션을 사용하여 모든 WFA를 정확하게 시뮬레이션할 수 있으며, 이를 위해 O(log T) 깊이의 모델이 필요하다.
- 또한 변환기는 표준 구현을 사용하여 모든 WFA를 임의의 정밀도로 근사적으로 시뮬레이션할 수 있으며, 이를 위해 O(log T) 깊이의 모델이 필요하다.
WTA 시뮬레이션:
- 변환기는 모든 WTA를 임의의 정밀도로 근사적으로 시뮬레이션할 수 있다.
- 균형 트리의 경우 O(log T) 깊이의 모델로 시뮬레이션이 가능하지만, 극단적으로 불균형한 트리의 경우 O(T) 깊이가 필요하다.
- WTA는 고전적인 트리 자동 기계를 포함하므로, 변환기는 트리 자동 기계도 시뮬레이션할 수 있다.
실험 결과:
- 실험을 통해 변환기가 WFA를 근사적으로 시뮬레이션할 수 있음을 확인했다.
- 모델의 깊이와 임베딩 크기가 이론적 예측과 일치하는 경향을 보였다.
통계
변환기는 T 길이의 입력 시퀀스에 대해 O(log T) 깊이의 모델로 WFA를 정확하게 시뮬레이션할 수 있다.
변환기는 T 길이의 입력 시퀀스에 대해 O(log T) 깊이의 모델로 WFA를 임의의 정밀도로 근사적으로 시뮬레이션할 수 있다.
변환기는 균형 트리에 대해 O(log T) 깊이의 모델로 WTA를 임의의 정밀도로 근사적으로 시뮬레이션할 수 있다.
인용구
"변환기는 DFA보다 훨씬 복잡한 유한 상태 기계의 추론을 시뮬레이션할 수 있다."
"변환기는 순차 데이터에 대한 복잡한 추론 능력을 압축적으로 인코딩할 수 있다."
"변환기는 트리 구조 입력에 대한 가중 자동 기계의 추론을 시뮬레이션할 수 있다."