מושגי ליבה
本稿では、べき乗則デコーダ表現を用いた大規模言語モデル(PLDR-LLM)は、小規模なデータセットとバッチサイズで学習しても、従来のモデルに匹敵する性能を達成できることを示している。
תקציר
べき乗則デコーダ表現を用いた大規模言語モデル(PLDR-LLM)
Gokden, B. (2024). PLDR-LLM: Large Language Model from Power Law Decoder Representations. arXiv preprint arXiv:2410.16703v1.
本研究では、非線形変換と線形変換を組み合わせた新しい大規模言語モデルアーキテクチャである、べき乗則デコーダ表現を用いた大規模言語モデル(PLDR-LLM)の開発と評価を行う。