本研究では、言語モデルの深さがコンポジショナルな一般化能力にどのような影響を及ぼすかを調査した。
まず、パラメータ数を一定に保ちつつ深さを変化させた3つのモデルクラスを構築した。これらのモデルを事前学習し、コンポジショナルな一般化を要求するタスクでファインチューニングを行った。
その結果、以下の3つの主要な知見が得られた:
これらの結果から、与えられたパラメータ予算の下では、深さを極端に増やさずに、むしろ幅を広げる方が効率的であると結論付けられる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jackson Pett... at arxiv.org 04-12-2024
https://arxiv.org/pdf/2310.19956.pdfDeeper Inquiries