Core Concepts
Eagle와 Finch는 RWKV-4 아키텍처를 발전시켜 다중 헤드 행렬 기반 상태와 동적 순환 메커니즘을 도입함으로써 표현력을 높이고 RNN의 효율적인 추론 특성을 유지하였다.
Abstract
이 논문에서는 Eagle(RWKV-5)과 Finch(RWKV-6)라는 두 가지 새로운 시퀀스 모델 아키텍처를 소개한다. 이들은 RWKV-4 아키텍처를 발전시킨 것으로, 다음과 같은 핵심 특징을 가진다:
다중 헤드 행렬 기반 상태: RWKV-4의 벡터 기반 상태에서 행렬 기반 상태로 발전시켜 표현력을 높였다.
동적 순환 메커니즘: 데이터 의존적인 선형 보간을 통해 시간 혼합과 토큰 이동 모듈의 유연성을 높였다.
새로운 다국어 데이터셋 RWKV World v2: 1.12조 토큰 규모의 다국어 및 코드 데이터로 구성되어 있다.
새로운 RWKV World 토크나이저: 다국어와 코드 데이터에 대한 성능을 향상시켰다.
이를 통해 Eagle과 Finch 모델은 다양한 벤치마크에서 기존 모델들을 능가하는 성능을 보였다.
Stats
1.12조 토큰 규모의 RWKV World v2 데이터셋을 사용하여 학습하였다.
Eagle 모델은 0.46억에서 7.5억 규모로, Finch 모델은 1.6억과 3.1억 규모로 학습되었다.
Quotes
"Eagle와 Finch는 RWKV-4 아키텍처를 발전시켜 다중 헤드 행렬 기반 상태와 동적 순환 메커니즘을 도입함으로써 표현력을 높이고 RNN의 효율적인 추론 특성을 유지하였다."
"RWKV World v2 데이터셋은 1.12조 토큰 규모의 다국어 및 코드 데이터로 구성되어 있다."