Core Concepts
이 논문은 DAG(Directed Acyclic Graph) 구조로 모델링할 수 있는 추론 문제에 대한 길이 일반화 이론을 제안한다. 이 이론은 입력 공간의 크기와 문제의 (n,r)-일관성 조건을 통해 길이 일반화 달성 가능 여부를 결정한다.
Abstract
이 논문은 길이 일반화(Length Generalization, LG)라는 문제를 다룬다. LG는 모델이 작은 크기의 문제로 학습된 경우 큰 크기의 문제에 대해 어려움을 겪는 현상을 말한다.
논문은 먼저 DAG 구조가 주어진 경우를 다룬다. 이 경우 입력 공간의 크기가 유한하면 재귀적으로 문제를 해결할 수 있음을 보인다.
다음으로 DAG 구조가 주어지지 않고 오직 순서열 데이터만 주어진 경우를 다룬다. 이 경우 입력 요소들 간의 최대 거리 R이 유한하면 LG를 달성할 수 있음을 보인다. R이 무한한 경우에도 문제가 (n,r)-일관성을 만족하면 LG를 달성할 수 있음을 보인다.
실험에서는 다양한 추론 문제(arctan, 유한체 산술, 패리티, 덧셈, 곱셈)를 통해 이론을 검증한다. 특히 같은 추론 문제라도 CoT(Chain of Thought) 표현 방식에 따라 LG 달성 여부가 달라짐을 보인다.
Stats
입력 공간의 크기 |X|가 유한하면 문제를 완벽하게 학습할 수 있다.
입력 요소들 간의 최대 거리 R이 유한하면 길이 일반화를 달성할 수 있다.
문제가 (n,r)-일관성을 만족하면 길이 일반화를 달성할 수 있다.
Quotes
"For |X| < ∞and sup|p(v)| < ∞, i.e., |X| < ∞, if D = X, then there exists an approximation function ˆf : Xsup|p(v)| →X, s.t. ˆf(p(v)) = f(p(v)), ∀p(v) ∈X."
"For |X| < ∞and sup|p(v)| < ∞, if D = Xsup|p(v)|, then there exists an approximation function ˆf : Xsup|p(v)| →X, the DAG can be recursively solved, i.e., ∀G = (V,E), G ˆf = G f."
"For R < ∞, if D = X4R+1, then there exists an approximation function ˆg : X4R+1 →{0,1} s.t. ˆg(s′)|s′
c = ˜g(s)|s′
c, where s′ ⊆s is a 4R+1 sub-interval of s, and s′
c is the central element of s′."