合成データのみを使った学習では、言語モデルの性能が劣化し、元の分布の情報が失われる可能性がある。しかし、元のデータと合成データを適切に組み合わせて学習すれば、言語モデルの崩壊を防ぐことができる。
LLMsの潜在表現に埋め込まれた事実知識を時間的知識グラフを用いて分析し、その進化パターンを明らかにする。
言語モデルの偏見は、明示的な集団メンバーシップの変更を通じて測定されることが多いが、これにより、優位な集団に関連付けられたテキストが不自然に見なされる可能性がある。これは、言語モデルの訓練データにおける報告バイアスが原因である可能性がある。
プロンプトの小さな変更や、出力フォーマットの指定、ジェイルブレイクの使用が、大規模言語モデルの予測に大きな影響を及ぼすことが明らかになった。
言語モデルの中間層に蓄積される抽象的な言語構造を、最小ペアベンチマークを用いてデコーディング・プロービングすることで明らかにする。