本文提出了一種基於ℓ0正則化多模態卷積稀疏編碼(MCSC)模型的可解釋網絡FNet,用於多模態圖像融合,並引入了一個基於ℓ0正則化MCSC模型的可解釋逆融合網絡IFNet,用於FNet的訓練,實驗證明FNet在五種不同的MMIF任務中均取得了優異的融合效果。
本研究提出了一個基於 MediaPipe Holistic 和深度學習的連續印度手語辨識系統,透過追蹤手部、臉部和身體動作,並使用長短期記憶模型 (LSTM) 進行訓練,實現了高準確率的即時手語辨識。
본 논문에서는 MediaPipe Holistic을 사용하여 수집한 데이터와 LSTM 딥러닝 모델을 활용하여 연속 수화 인식 시스템을 개발하고, 그 성능을 실험적으로 평가합니다.
本稿では、L0正則化多重畳み込みスパースコーディング(MCSC)モデルに基づく、解釈可能なマルチモーダル画像融合ネットワーク「FNet」を提案する。FNetは、独自のLZSCブロックを用いてソース画像から共通の特徴と固有の特徴を抽出し、それらを組み合わせて高品質な融合画像を生成する。さらに、逆融合プロセスを用いた学習により、融合画像の品質を向上させている。
本稿では、MediaPipe Holisticを用いて手話映像から特徴点を抽出し、LSTMを用いた深層学習モデルによって、インド手話をリアルタイムで認識する連続手話認識システムを開発した。
This paper introduces FNet, a novel interpretable deep neural network for multi-modal image fusion (MMIF) that leverages an ℓ0-regularized multi-modal convolutional sparse coding (MCSC) model and a novel learnable ℓ0-regularized sparse coding (LZSC) block to effectively separate and fuse unique and common features from source images, achieving superior performance compared to state-of-the-art methods.
This research paper presents a continuous sign language recognition system for Indian Sign Language (ISL) using MediaPipe Holistic for feature extraction and Long Short-Term Memory (LSTM) networks for gesture recognition, achieving an accuracy of 88.23% on a dataset of 45 ISL gestures.
本文提出了一種名為 Pose2Trajectory 的新方法,利用 Transformer 模型,基於網球運動員的身體姿態、歷史軌跡和球的位置,預測運動員的未來移動軌跡,以實現自動化鏡頭追踪。
본 논문에서는 테니스 선수의 신체 관절 데이터와 공의 위치 정보를 활용하여 선수의 미래 움직임 궤적을 예측하는 새로운 방법론인 Pose2Trajectory를 제안합니다.
Transformerモデルを用いて、テニス選手の体の関節の位置情報、過去の軌跡、ボールの位置から将来の動きを予測するPose2Trajectoryモデルを提案する。