ファッションドメインのデータセットでは、画像と文章の情報に不一致が生じることがあり、従来のマスクド言語モデリングやマスクド画像モデリングでは、この問題に対処できない。本研究では、クロスアテンション特徴を利用して、画像と文章の同期的に共起する部分をマスクするSyncMaskを提案し、さらにグループ化されたバッチサンプリングにセミハードネガティブを導入することで、ファッションデータの特性に合わせた効果的な学習を実現する。