Transformerは、文脈の増加と事前学習タスクの増加の両方から学習できるが、標準的なMLPは事前学習タスクの増加からのみ学習できる。これは、Transformerがデータ依存の「特徴マップ」を使用するためであり、この特徴マップは文脈スケーリングを可能にする。
大規模言語モデル(LLM)のインコンテキスト学習(ICL)において、サンプルとラベルの両方の明瞭性をロジットレベルで評価する基準である「ロジット分離可能性」を用いることで、より明確な指示と豊富なラベル情報を含むデモンストレーションを構築し、ICLのパフォーマンスを大幅に向上させることができる。
大規模言語モデル(LLM)のインコンテキスト学習(ICL)における、事前学習知識と実例の影響を理論的に分析し、実例サイズ、ラベルのノイズ、事前学習知識との矛盾といった要素がICLの精度にどう影響するかを明らかにした。
DeepOSetsは、教師あり学習演算子のインコンテキスト学習のための効率的でノイズに強い非自己回帰型ニューラルネットワークアーキテクチャであり、従来の自己回帰型モデルよりもパラメータ効率が高く、トレーニングが高速で、ノイズに対して堅牢です。
大規模言語モデル(LLM)は、従来のテキストベースのパラダイムを超えて、連続ベクトル表現を用いたインコンテキスト学習(ICL)が可能であり、テキスト、数値、時系列、グラフ、脳波など、さまざまな分野のデータから学習し、タスクに適応できる可能性がある。
複数の多様なタスクを同時に学習することで、インコンテキスト学習(ICL)における学習の停滞期間(プラトー)が短縮され、個々のタスクの学習が容易になる。
暗黙的なパターンを持つタスクにおいて、インコンテキスト学習(ICL)はファインチューニングよりも効果的にパターンを把握し、問題解決能力の向上に繋がり、これはモデルの回路における顕著な変化によって証明されています。
MLPsは、Transformerと同等の性能でインコンテキスト学習を行うことができる。さらに、関係推論タスクでは、Transformerよりも優れた性能を発揮する。
マンバモデルは、トランスフォーマーモデルと比較して、一部のタスクでは優れた性能を示すが、他のタスクでは劣る。ハイブリッドモデルであるMambaFormerは、両者の長所を活かし、様々なインコンテキスト学習タスクで優れた性能を発揮する。