核心概念
本文提出了一種基於內容自適應的速率-品質曲線預測模型,用於優化串流媒體服務中的視訊轉碼,該模型能根據視訊內容特徵動態調整編碼參數,在不需重新訓練模型的情況下,靈活調整編碼策略,提升編碼效率和使用者觀看體驗。
摘要
論文資訊
Yin, S., Zhang, Z., Ning, P., Chen, Q., Chen, J., Zhou, Q., & Song, L. (2024). Content-Adaptive Rate-Quality Curve Prediction Model in Media Processing System. arXiv preprint arXiv:2411.05295v1.
研究目標
本研究旨在開發一種基於內容自適應的速率-品質曲線預測模型,以解決傳統視訊轉碼方法效率低下的問題,並提升串流媒體服務中的使用者觀看體驗。
方法
- 提出一個與編碼策略分離的速率-品質曲線預測模型,該模型可以同時預測 CRF-VMAF 曲線和 CRF-位元率曲線,並推導出位元率-品質曲線。
- 設計了一組包含編解碼器特徵、內容特徵和錨點特徵的視訊特徵集,用於預測速率-品質曲線。
- 引入一種基於錨點特徵的錨點懸停方法,以進一步提高預測精度。
- 使用 10,000 個線上 UGC 視訊資料集,其中 8,000 個視訊作為訓練資料,2,000 個作為測試資料,對模型進行訓練和驗證。
- 使用平均絕對誤差 (MAE) 和 VACC 作為評估指標,評估預測曲線的準確性。
主要發現
- 所提出的模型能夠準確預測 CRF-VMAF 曲線和 CRF-位元率曲線,進而推導出位元率-品質曲線。
- 模型的預測精度達到業界 SOTA 水準,VACC 達到 99.14%。
- 線上 A/B 測試結果顯示,該模型能有效提升使用者觀看體驗,包括增加影片觀看次數、完播率和應用程式使用時長。
主要結論
- 基於內容自適應的速率-品質曲線預測模型可以有效提高視訊編碼效率和使用者觀看體驗。
- 該模型具有良好的預測精度和泛化能力,可以應用於不同的編碼策略和應用場景。
意義
本研究提出了一種有效的視訊編碼優化方法,對於提升串流媒體服務品質和使用者體驗具有重要意義。
局限性和未來研究方向
- 未來可以進一步探索更輕量級的視訊特徵提取方法,以降低模型的計算複雜度。
- 可以研究如何將該模型應用於其他視訊編碼標準,例如 AV1 和 VVC。
統計資料
線上 A/B 測試結果顯示,該策略使影片觀看次數增加了 +0.107%,影片完播率增加了 +0.107%,應用程式使用時間增加了 +0.064%。
模型的 VACC 達到 99.14%。
使用 x264 編碼器以 CRF 18 和 CRF 33 對降採樣後的 360p 視訊進行預編碼,以提取編解碼器特徵。
使用 red265 編碼器以 CRF 30.4 對原始視訊進行編碼,並計算 VMAF 和位元率作為錨點特徵。
引述
"In this paper, we propose a rate-quality curve prediction model decoupled from the encoding strategy, capable of simultaneously forecasting the RF-quality and RF-bitrate curves, and subsequently deriving the bitrate-quality curve."
"Experiments confirm that the actual quality metric (VMAF) of the compressed video stays within ±1 of the target, achieving an accuracy of 99.14%."
"By incorporating our quality improvement strategy with the rate-quality curve prediction model, we conducted online A/B tests, obtaining both +0.107% improvements in video views and video completions and +0.064% app duration time."