本稿では、ベースレイヤーでオブジェクト検出をサポートし、拡張レイヤーと組み合わせて人間が見るための入力再構成をサポートする、エンドツーエンドの学習可能なスケーラブルな人間と機械のためのビデオコーデックを提案する。