次のトークン予測(NTP)の訓練パラダイムにおける暗黙のバイアスに焦点を当てた研究。NTP訓練は特定の解に対して暗黙のバイアスを示し、最適化と一般化原則に影響を与える。この研究は、GDが特定の方向に収束することを明確に示し、CE損失が限界値Hに収束することを立証している。さらなる研究では、NTP分類でGDの暗黙のバイアスを探求し、最適化と一般化原則を詳細に調査する可能性がある。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Christos Thr... في arxiv.org 02-29-2024
https://arxiv.org/pdf/2402.18551.pdfاستفسارات أعمق