本研究では、ファッション特化型ビジョン・言語プリトレーニングにおける課題に取り組んでいる。
ファッションドメインのデータセットでは、単一の説明文が複数の画像に対応付けられることが多く、画像と文章の情報に不一致が生じる問題がある。従来のマスクド言語モデリング(MLM)やマスクド画像モデリング(MIM)では、このような不一致に対処できず、ビジュアルと言語の特徴の正確な対応付けが困難になる。
そこで本研究では、SyncMaskを提案する。これは、教師モデルのクロスアテンション特徴を利用して、画像と文章の同期的に共起する部分をマスクするものである。これにより、不一致のある部分をマスクせずに、重要な特徴を効果的に学習できる。
さらに、ファッションデータの特性である小さなデータサイズと偏った分布に着目し、グループ化されたバッチサンプリングにセミハードネガティブを導入する手法を提案する。これにより、限られたデータでも細かな違いを学習できるようになる。
実験の結果、提案手法はファッション関連のタスクで優れた性能を示すことが確認された。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Chull Hwan S... في arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01156.pdfاستفسارات أعمق