本研究では、言語モデルの深さがコンポジショナルな一般化能力にどのような影響を及ぼすかを調査した。
まず、パラメータ数を一定に保ちつつ深さを変化させた3つのモデルクラスを構築した。これらのモデルを事前学習し、コンポジショナルな一般化を要求するタスクでファインチューニングを行った。
その結果、以下の3つの主要な知見が得られた:
これらの結果から、与えられたパラメータ予算の下では、深さを極端に増やさずに、むしろ幅を広げる方が効率的であると結論付けられる。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Jackson Pett... a las arxiv.org 04-12-2024
https://arxiv.org/pdf/2310.19956.pdfConsultas más profundas