本論文は、視覚音声認識(VSR)の性能向上に向けた取り組みについて述べている。
まず、VSRは音声認識(ASR)に比べて理論的な性能上限が低いという課題がある。これは、視覚情報のみでは意味情報を十分に伝達できないことが原因とされている。
そこで本論文では、事前学習済みのASRモデルを活用した知識蒸留手法「JEP-KD」を提案する。JEP-KDの特徴は以下の通り:
実験の結果、JEP-KDを導入することで、CMLR データセットにおける文字誤り率(CER)が19.92%から14.26%に大幅に改善された。さらに、大規模データセットを用いた事前学習を行うことで、CERをさらに11.97%まで低減できることが示された。
以上より、JEP-KDは視覚音声認識モデルの性能向上に効果的であることが確認された。今後の課題としては、ASRモデルと同等の性能を実現するためにさらなる改善が必要であることが指摘されている。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Chang Sun,Ho... lúc arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.18843.pdfYêu cầu sâu hơn