이 논문은 신경망 모델의 층별 선형 모드 연결성(LLMC)을 분석합니다. 기존 연구에서는 전체 모델 간 선형 연결성을 분석했지만, 이 논문에서는 각 층별로 선형 연결성을 조사합니다.
실험 결과, CIFAR-10 데이터셋의 ResNet18 모델과 Wikitext 데이터셋의 GPT 모델에서 대부분의 층에서 선형 연결성이 관찰되었습니다. 이는 깊은 신경망에서도 층 간 장벽이 존재하지 않음을 보여줍니다.
또한 층을 누적하여 평균화할 때, 가장 얕은 층이나 가장 깊은 층이 아닌 중간 층에서 장벽이 발생하는 것을 확인했습니다. 이러한 현상은 학습률에 따라 달라지며, 높은 학습률에서 더 뚜렷하게 나타났습니다.
이 연구 결과는 연합 학습 등 모델 결합 기법에 활용될 수 있으며, 신경망 최적화 과정에 대한 이해를 높일 수 있습니다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問