Core Concepts
言語モデルのデータ効率性の差異は、多様な入力と結びつきが一部原因である可能性がある。
Abstract
子供は少量の言語情報から学習する能力を持つが、言語モデルは膨大なデータを必要とし、視覚情報が言語学習に及ぼす影響を検証。FLAVAアーキテクチャを使用して実験を行い、結果は否定的であり、現在の多様なトレーニング手法では効果が見られないことを示唆。
Stats
子供は最大1億単語で言語を学ぶ(Gilkerson et al., 2017)。
言語モデルは数十億単語以上のトレーニングデータが必要(Zhang et al., 2021)。
FLAVAアーキテクチャによるマルチタスクプリトレーニング(Singh et al., 2022)。
WiTデータセットに基づく実験(Srinivasan et al., 2021)。
データ量によって文法向上や理解度に違いあり(Warstadt et al., 2020a; Wang et al., 2018)。
Quotes
"我々の結果は主に否定的であり、マルチモーダルプリトレーニングは我々のモデルの言語パフォーマンスに害を及ぼさないことが示された" - 引用元不明
"我々は現在の多様なトレーニング手法ではこの豊かな学習信号から利益を得られていないことを結論付けた" - 引用元不明
"我々はマルチタスクプリトレーニング手法により複雑な言語忘却問題を防止しようとした" - 引用元不明