이 연구에서는 신경망을 부분으로 나누어 학습하는 새로운 방법을 제안한다. 기존의 모델 병렬화 방식과 달리, 각 부분을 독립적으로 학습하되 중간 레이블을 합성하여 사용한다.
먼저 신경망을 두 개의 부분으로 나눈다. 왼쪽 부분은 합성 중간 레이블을 사용하여 학습하고, 오른쪽 부분은 왼쪽 부분의 출력을 입력으로 사용하여 학습한다. 이를 통해 부분 간 통신 오버헤드를 크게 줄일 수 있다. 또한 각 부분의 하이퍼파라미터를 독립적으로 조정할 수 있어 전체 계산 요구량을 최소화할 수 있다.
실험 결과, 제안 방법은 기존 방식과 유사한 정확도를 달성하면서도 메모리 사용량과 계산 요구량을 크게 줄일 수 있음을 보여준다. 특히 왼쪽 부분의 학습 epoch 수를 최소화하는 것이 효과적이다. 또한 학습 후 추가 학습 단계를 거치면 정확도를 더 높일 수 있다.
이 연구 결과는 대규모 신경망 모델 개발에 필요한 자원 제약 문제를 해결하는 데 기여할 것으로 기대된다. 향후 다양한 신경망 구조로의 확장 가능성도 있다.
To Another Language
from source content
arxiv.org
Djupare frågor