核心概念
言語モデルの深さを増やすことで、コンポジショナルな一般化能力が向上する。ただし、深さの効果は急速に飽和し、深さを増やし続けても大きな効果は得られない。
要約
本研究では、言語モデルの深さがコンポジショナルな一般化能力にどのような影響を及ぼすかを調査した。
まず、パラメータ数を一定に保ちつつ深さを変化させた3つのモデルクラスを構築した。これらのモデルを事前学習し、コンポジショナルな一般化を要求するタスクでファインチューニングを行った。
その結果、以下の3つの主要な知見が得られた:
- ファインチューニング後、より深いモデルはより高いコンポジショナルな一般化性能を示すが、深さを増やしても効果は急速に飽和する。
- 同一のサイズクラス内では、より深いモデルの言語モデリング性能が優れる。ただし、深さを増やしても性能向上は急速に飽和する。
- コンポジショナルな一般化能力の向上は、単に言語モデリング性能の向上や、ファインチューニングタスクの in-distribution 性能の向上によるものではない。
これらの結果から、与えられたパラメータ予算の下では、深さを極端に増やさずに、むしろ幅を広げる方が効率的であると結論付けられる。
統計
言語モデルの深さを増やすと、パープレキシティが大幅に低下する。
深さを1層から5層に増やすと、パープレキシティが1.59倍から1.99倍改善される。
引用
"深いモデルほど、コンポジショナルな一般化性能が優れる。ただし、深さを増やしても効果は急速に飽和する。"
"深いモデルほど、言語モデリング性能が優れる。ただし、深さを増やしても性能向上は急速に飽和する。"
"コンポジショナルな一般化能力の向上は、単に言語モデリング性能の向上や、ファインチューニングタスクの in-distribution 性能の向上によるものではない。"