次のトークン予測(NTP)の訓練パラダイムにおける暗黙のバイアスに焦点を当てた研究。NTP訓練は特定の解に対して暗黙のバイアスを示し、最適化と一般化原則に影響を与える。この研究は、GDが特定の方向に収束することを明確に示し、CE損失が限界値Hに収束することを立証している。さらなる研究では、NTP分類でGDの暗黙のバイアスを探求し、最適化と一般化原則を詳細に調査する可能性がある。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Christos Thr... о arxiv.org 02-29-2024
https://arxiv.org/pdf/2402.18551.pdfГлибші Запити