이 논문은 제로 차수(ZO) 최적화 기술을 활용하여 깊이 모델을 효과적으로 학습할 수 있는 새로운 프레임워크 DeepZero를 제안한다.
좌표 단위 기울기 추정(CGE)이 랜덤 벡터 기울기 추정(RGE)보다 정확도와 계산 효율성 면에서 우수함을 보였다. 특히 모델 깊이가 증가할수록 CGE의 장점이 더욱 두드러졌다.
모델 가지치기(pruning)를 통해 ZO 학습에 필요한 기울기 희소성을 효과적으로 확보할 수 있는 방법을 제안했다. 이를 통해 깊이 모델 학습에 필요한 쿼리 수를 크게 줄일 수 있었다.
CGE의 병렬화 특성을 활용하여 forward 병렬화 기법을 개발했다. 또한 특징 재사용 기법을 통해 계산 효율성을 더욱 높였다.
제안한 DeepZero 프레임워크를 통해 ResNet-20 모델을 CIFAR-10 데이터셋에서 학습한 결과, 기존 제로 차수 학습 방법 대비 최고 성능을 달성했다. 또한 블랙박스 적대적 방어와 물리 기반 ML 시스템 등 실제 응용 분야에서도 우수한 성능을 보였다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問