이 연구에서는 신경망을 부분으로 나누어 학습하는 새로운 방법을 제안한다. 기존의 모델 병렬화 방식과 달리, 각 부분을 독립적으로 학습하되 중간 레이블을 합성하여 사용한다.
먼저 신경망을 두 개의 부분으로 나눈다. 왼쪽 부분은 합성 중간 레이블을 사용하여 학습하고, 오른쪽 부분은 왼쪽 부분의 출력을 입력으로 사용하여 학습한다. 이를 통해 부분 간 통신 오버헤드를 크게 줄일 수 있다. 또한 각 부분의 하이퍼파라미터를 독립적으로 조정할 수 있어 전체 계산 요구량을 최소화할 수 있다.
실험 결과, 제안 방법은 기존 방식과 유사한 정확도를 달성하면서도 메모리 사용량과 계산 요구량을 크게 줄일 수 있음을 보여준다. 특히 왼쪽 부분의 학습 epoch 수를 최소화하는 것이 효과적이다. 또한 학습 후 추가 학습 단계를 거치면 정확도를 더 높일 수 있다.
이 연구 결과는 대규모 신경망 모델 개발에 필요한 자원 제약 문제를 해결하는 데 기여할 것으로 기대된다. 향후 다양한 신경망 구조로의 확장 가능성도 있다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Ceva... lúc arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11204.pdfYêu cầu sâu hơn