toplogo
登录

멱 법칙 데이터 스펙트럼을 가진 2계층 네트워크에서 신경망 스케일링 법칙 분석


核心概念
데이터 공분산 행렬의 멱 법칙 스펙트럼이 다양한 학습 체계에서 신경망 스케일링 법칙에 미치는 영향을 분석하고, 특히 일반화 오류의 멱 법칙 스케일링 현상을 이론적으로 설명합니다.
摘要
edit_icon

自定义摘要

edit_icon

使用 AI 改写

edit_icon

生成参考文献

translate_icon

翻译原文

visual_icon

生成思维导图

visit_icon

访问来源

본 연구 논문에서는 통계 역학 기법을 활용하여 멱 법칙 스펙트럼을 나타내는 데이터 공분산 행렬을 사용하는 2계층 신경망에서의 신경망 스케일링 법칙을 분석합니다. 특히, 학습 데이터 크기, 모델 복잡도, 학습 시간과 같은 주요 요소에 대한 신경망 성능의 스케일링 방식을 설명하는 멱 법칙의 이론적 이해를 제공하는 데 중점을 둡니다.
본 연구에서는 학생과 교사 모두 2계층 신경망인 학생-교사 프레임워크 내에서 단일 패스 확률적 경사 하강법을 분석합니다. 선형 활성화 함수와 비선형 활성화 함수 모두에 대한 분석을 제공하며, 특히 학생 가중치가 학습 중에 상당한 변화를 겪는 특징 학습 체계에 중점을 둡니다. 데이터셋 현실적인 데이터를 모델링하기 위해 공분산 행렬이 멱 법칙 스펙트럼을 나타내는 가우시안 분포 입력을 사용합니다. 이는 다양한 학습 영역에서 데이터셋의 공통적인 특징인 특징-특징 공분산 행렬이 멱 법칙 스펙트럼을 나타내는 경우가 많다는 점을 기반으로 합니다. 차수 매개변수 일반화 오류와 학생 및 교사 가중치 간의 관계를 설명하기 위해 차수 매개변수를 도입합니다. 이러한 매개변수는 서로 다른 수준에서 학생과 교사 가중치 간의 관계를 포착하여 일반화 오류의 동작을 분석할 수 있도록 합니다. 동적 방정식 학습 프로세스 동안 각 입력 예제가 제시된 후 확률적 경사 하강법을 사용하여 학생 벡터를 업데이트합니다. 열역학적 한계에서 차수 매개변수의 동역학을 설명하는 일련의 계층적 미분 방정식을 도출합니다.

更深入的查询

0
star