모바일 AI 가속기의 등장으로 지연에 민감한 애플리케이션이 클라이언트 측에서 경량 심층 신경망(DNN)을 실행할 수 있게 되었다. 그러나 중요한 애플리케이션은 강력한 모델이 필요하며 엣지 장치에서 호스팅할 수 없기 때문에 요청을 오프로드해야 한다. 이는 제한된 대역폭으로 인해 네트워크 혼잡, 불규칙한 응답 지연 및 귀중한 클라이언트 측 리소스의 유휴 상태를 초래한다.
Split Computing(SC)은 이러한 비효율적인 리소스 활용을 완화하고 저지연 및 성능 중요 모바일 추론을 가능하게 하는 대안이다. SC 방법은 DNN 계층을 클라이언트와 서버 간에 분할하여 처리한다. 그러나 현재 SC 방법은 특정 신경망 아키텍처에 맞춰져 있거나 조건부로만 적용 가능하다.
이 연구는 DNN 계층을 분할하는 대신 지역 리소스를 기계 해석 가능성을 위해 최적화된 변분 압축에 집중하는 것을 제안한다. 이를 위해 얕은 변분 병목 주입 방법을 소개하고 다양한 구현을 광범위하게 평가한다. 제안 방법은 정확도를 저하시키지 않고 최신 SC 방법보다 60% 낮은 비트레이트를 달성하며 기존 코덱 표준보다 최대 16배 빠르다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor