核心概念
大規模な視覚言語表現モデルの事前学習に、コンテキストを考慮した学習を取り入れることで、テスト時における少数ショット学習のサンプル効率とパフォーマンスを大幅に向上させることができる。
要約
コンテキスト対応マルチモーダル事前学習:研究論文サマリー
Roth, K., Akata, Z., Damen, D., Balazevic, I., & Henaff, O. J. (2024). Context-Aware Multimodal Pretraining. arXiv preprint arXiv:2411.15099.
本研究は、大規模な視覚言語モデルの事前学習において、テスト時における少数ショット学習のサンプル効率とパフォーマンスを向上させることを目的とする。