효율적인 신경망 특징 압축을 통한 모바일 엣지 컴퓨팅을 위한 얕은 변분 병목 주입
모바일 AI 가속기의 등장으로 지연에 민감한 애플리케이션이 클라이언트 측에서 경량 심층 신경망(DNN)을 실행할 수 있게 되었지만, 중요한 애플리케이션은 강력한 모델이 필요하며 엣지 장치에서 호스팅할 수 없기 때문에 요청을 오프로드해야 한다. 이 연구는 DNN 계층을 장치 간에 분할하는 대신 지역 리소스를 기계 해석 가능성을 위해 최적화된 변분 압축에 집중하는 것을 제안한다.