The author presents the NPU-ASLP-LiAuto system's success in the CNVSRC 2023 challenge, utilizing multi-scale lip motion video data and diverse encoders for optimal performance.
深層学習の進歩を活用して、NPU-ASLP-LiAutoがCNVSRC 2023で導入したビジュアル音声認識システムに焦点を当てる。