Core Concepts
大規模な事前学習済みVision Language Model(VLM)を活用して、患者の歩行ビデオの視覚的、テキスト的、数値的表現を向上させる知識増強戦略を提案する。
Abstract
研究はICube研究所で実施され、神経変性疾患における歩行ビデオ分析の改善方法を示唆している。
ビジョン言語モデル(VLM)を使用し、クラス固有の医学的記述と数値歩行パラメーターを統合してモデルを改善する方法が提案されている。
他のSOTAモデルと比較して、この手法は2つのビデオベースの歩行分類タスクで優れた結果を達成している。
方法:
導入
現在の臨床評価法は特殊な装置が必要であり、診察時に症状を捉えることが難しい。
ビデオから運動症状を分析することでコスト効果的な監視が可能になり、タイムリーかつ個別化された評価が容易になる。
データセットと前処理
40人の神経変性障害患者と3人の健常者からなる92本の歩行ビデオが使用された。
歩行パラメーターはテキスト空間に効果的に取り込まれている。
VLMファインチューニングとナレッジアウェアプロンプト
クラス固有の記述文や数値歩行パラメーターを利用したプロンプト学習戦略が採用されている。
数値テキスト埋め込みと対比学習
数値ゲートパラメーターからテキスト埋め込みへのエンコーディング方法が示されている。
実験と結果
ゲートスコア推定および認知症サブタイピングタスクで他のSOTAモデルよりも優れた性能を発揮している。
Stats
我々の手法は他のSOTAモデルよりも優れた結果を達成しています。
研究では40人以上の神経変性障害患者から得られた92本の歩行ビデオが使用されました。