本文提出了一種新穎的單詞級手語識別方法,該方法利用多流神經網路 (MSNN) 來整合多種資訊,包括手部和臉部的局部資訊,以及身體和雙手的相對位置,以提高識別準確率。
文章介紹了一個名為 AzSLD 的阿塞拜疆手語數據集,該數據集旨在促進手語識別和翻譯系統的發展。
SignCLIP 透過將文字和手語視頻投影到相同的嵌入空間,實現了從大規模、多語言視頻文本對中學習手語視覺表示的目標,並在手語識別等下游任務中展現出良好的性能。
本研究提出了一種全新的深度神經網絡方法來自動化實現手語識別。該方法結合了先進的預處理技術以優化整體性能。我們利用ResNet、Inception、Xception和VGG等架構來有選擇地對手語圖像進行分類。我們設計了一個DNN架構並將其與預處理架構相結合。在後處理階段,我們使用基於合作博弈論的SHAP深度解釋器來量化特定特徵對機器學習模型輸出的影響。我們在不丹手語(BSL)數據集上進行了訓練和測試,結果顯示ResNet50模型的準確率高達98.90%。我們的模型還能夠提供信息清晰度,這得益於SHAP方法的顯著健壯性和可靠性。