Centrala begrepp
신경망의 Fisher 정보 행렬은 매개변수 공간의 국소 기하학을 특성화하며, 신경망을 이해하고 최적화하는 데 유용한 도구를 제공한다. 계산 비용이 높기 때문에 실무자들은 무작위 추정기를 사용하고 대각선 항목만 평가한다. 이 논문에서는 이러한 두 가지 추정기의 정확성과 샘플 복잡성이 관련 분산에 따라 달라짐을 보인다. 회귀 및 분류 네트워크에서 분산의 상한을 도출하고, 두 추정기의 트레이드오프를 분석한다. 매개변수 그룹에 따른 비선형성이 분산에 영향을 미치므로 Fisher 정보 행렬을 추정할 때 무시해서는 안 된다는 것을 발견했다.
Sammanfattning
이 논문은 신경망의 Fisher 정보 행렬(FIM)을 효율적으로 추정하는 방법을 다룬다. FIM은 신경망의 매개변수 공간 기하학을 특성화하고 최적화 알고리즘 개발에 유용한 도구를 제공한다. 그러나 FIM 계산은 비용이 많이 들기 때문에, 실무자들은 무작위 추정기를 사용하고 대각선 항목만 평가한다.
이 논문에서는 두 가지 대각 FIM 추정기의 정확성과 샘플 복잡성을 분석한다:
- ˆ
I1(θ): 로그 우도 기울기의 제곱 평균
- ˆ
I2(θ): 로그 우도 2차 미분의 평균
이 두 추정기의 분산은 매개변수-출력 매핑의 비선형성에 따라 달라진다. 회귀 및 분류 네트워크에 대한 분석을 통해 다음을 발견했다:
- 분산 상한은 매개변수 그룹에 따라 달라지며, 무시해서는 안 된다.
- ˆ
I2가 마지막 레이어에서 ˆ
I1보다 선호된다.
- 분산은 입력 분포와 출력 분포에 따라 달라진다.
이러한 통찰력은 FIM 추정 시 편향-분산 트레이드오프를 이해하는 데 도움이 된다.
Statistik
신경망 매개변수 θ의 차원은 매우 크다.
추정기 ˆ
I1(θi)와 ˆ
I2(θi)의 분산은 O(1/N)이다.
분산은 매개변수-출력 매핑 ∂h/∂θ와 출력 t(y)의 중심 모멘트에 따라 달라진다.
Citat
"Fisher 정보 행렬은 신경망의 매개변수 공간 국소 기하학을 특성화한다. 이는 신경망을 이해하고 최적화하는 데 유용한 이론과 도구를 제공한다."
"매개변수 그룹에 따른 비선형성은 Fisher 정보 행렬 추정 시 무시해서는 안 된다."
"마지막 레이어에서는 ˆ
I2가 ˆ
I1보다 선호된다."