Core Concepts
本文介紹了一個新的香港手語(HKSL)資料集TVB-HKSL-News,用於支持大詞彙量連續手語識別和翻譯的研究。
Abstract
本文介紹了一個新的香港手語(HKSL)資料集TVB-HKSL-News。該資料集是從香港電視台的手語新聞節目中收集的,包含16.07小時的手語視頻,涵蓋6,515個手語詞彙(用於手語識別)和2,850個中文字符或18,000個中文詞(用於手語翻譯)。
資料集的主要特點如下:
包含兩位手語翻譯員的大量數據,可用於研究單個翻譯員的大詞彙量連續手語識別和翻譯。
採用自動化的數據收集流程,可以輕鬆地擴展到其他手語的數據收集。
對手語視頻進行了專業的手語詞彙標註,為手語識別任務提供了高質量的標註。
此外,本文還報告了在該資料集上使用最新的手語識別和翻譯模型的基準結果,為未來的研究提供了參考。實驗結果表明,利用手部和身體關鍵點信息可以顯著提高手語識別和翻譯的性能。同時,研究還發現,對於單個翻譯員的手語識別任務,約8小時的訓練數據就足以達到收斂,但手語翻譯任務仍然需要更多的訓練數據。這些發現可以為未來的手語識別和翻譯研究提供指導。
Stats
昨天溫度二十有濕百分比七六
而輸入個案有一宗是一名印度海員