本研究では、言語モデルの深さがコンポジショナルな一般化能力にどのような影響を及ぼすかを調査した。
まず、パラメータ数を一定に保ちつつ深さを変化させた3つのモデルクラスを構築した。これらのモデルを事前学習し、コンポジショナルな一般化を要求するタスクでファインチューニングを行った。
その結果、以下の3つの主要な知見が得られた:
これらの結果から、与えられたパラメータ予算の下では、深さを極端に増やさずに、むしろ幅を広げる方が効率的であると結論付けられる。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Jackson Pett... às arxiv.org 04-12-2024
https://arxiv.org/pdf/2310.19956.pdfPerguntas Mais Profundas