신경망의 대각 Fisher 정보 행렬 추정기의 트레이드오프
신경망의 Fisher 정보 행렬은 매개변수 공간의 국소 기하학을 특성화하며, 신경망을 이해하고 최적화하는 데 유용한 도구를 제공한다. 계산 비용이 높기 때문에 실무자들은 무작위 추정기를 사용하고 대각선 항목만 평가한다. 이 논문에서는 이러한 두 가지 추정기의 정확성과 샘플 복잡성이 관련 분산에 따라 달라짐을 보인다. 회귀 및 분류 네트워크에서 분산의 상한을 도출하고, 두 추정기의 트레이드오프를 분석한다. 매개변수 그룹에 따른 비선형성이 분산에 영향을 미치므로 Fisher 정보 행렬을 추정할 때 무시해서는 안 된다는 것을 발견했다.