본 연구는 신경망 손실 함수 지형의 수렴 특성을 이론적으로 분석하고 실험적으로 검증한다.
이론적 분석 부분에서는 완전 연결 신경망에서 손실 함수 지형의 수렴을 분석하고, 새로운 객체 추가 시 손실 함수 값의 차이에 대한 상한을 도출한다. 이를 위해 헤시안 행렬의 특성을 분석하고, 그 크기에 대한 상한을 제시한다.
실험 부분에서는 다양한 이미지 분류 데이터셋을 사용하여 완전 연결 신경망을 학습하고, 손실 함수 지형의 수렴 특성을 관찰한다. 실험 결과는 이론적 분석 결과와 일치하며, 손실 함수 지형이 샘플 크기 증가에 따라 수렴함을 보여준다.
본 연구 결과는 신경망 손실 함수 지형의 국소 기하학에 대한 통찰을 제공하며, 샘플 크기 결정 기법 개발에 활용될 수 있다.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Nikita Kisel... ที่ arxiv.org 09-19-2024
https://arxiv.org/pdf/2409.11995.pdfสอบถามเพิ่มเติม