本研究では、言語モデルの深さがコンポジショナルな一般化能力にどのような影響を及ぼすかを調査した。
まず、パラメータ数を一定に保ちつつ深さを変化させた3つのモデルクラスを構築した。これらのモデルを事前学習し、コンポジショナルな一般化を要求するタスクでファインチューニングを行った。
その結果、以下の3つの主要な知見が得られた:
これらの結果から、与えられたパラメータ予算の下では、深さを極端に増やさずに、むしろ幅を広げる方が効率的であると結論付けられる。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Jackson Pett... pada arxiv.org 04-12-2024
https://arxiv.org/pdf/2310.19956.pdfPertanyaan yang Lebih Dalam