核心概念
大規模な異質なデータを活用するために、対照学習を用いて基盤モデルを事前学習する手法の重要性が高まっている。視点の異質性と課題の異質性の両面から、対照学習を基盤モデルに適用する最新の手法を包括的に紹介し、今後の課題と展望を示す。
要約
本論文は、大規模な異質なデータを活用するための基盤モデルの事前学習手法について包括的に紹介している。
まず、視点の異質性に着目し、従来の多視点対照学習手法を概説した上で、それらを大規模な基盤モデルに適用する最新の取り組みを紹介する。具体的には、大規模な視覚モデル、言語モデル、マルチモーダルモデルなどにおける対照学習の活用例を示している。
次に、課題の異質性に着目し、事前学習タスクと下流タスクの両面から、対照学習を活用する手法を説明する。事前学習タスクとしては、教師なしの前置きタスク、教師あり学習タスク、嗜好学習タスク、補助タスクなどが紹介される。下流タスクとの接続方法としては、自動機械学習、プロンプト学習、マルチタスク学習、タスク変形などの手法が紹介されている。
最後に、対照学習を用いた基盤モデルの今後の課題と展望について議論している。
統計
近年、新たに生成されるデータの量は2兆ギガバイトを超えている。
大規模データの主な特徴は異質性であり、複数のソースから収集され、様々なタスクに関連付けられている。