Core Concepts
大規模言語モデルにおけるインコンテキスト学習の重要性と、タスク認識ポイントの特定が翻訳タスクに対する影響を示しています。
Abstract
自己教師付き大規模言語モデルが機械翻訳を実行する能力を示しています。本稿では、大規模言語モデルがインコンテキスト学習から翻訳モデルへ移行する領域を特徴付けしようと試みています。GPTNEO2.7B、BLOOM3B、LLAMA7B、LLAMA7B-CHATでの層ごとのコンテキストマスキング実験を通じて、「タスク認識」ポイントが存在し、この冗長性を利用することで計算上の節約が可能であることが示されました。また、中間層がMTファインチューニングに最も効果的であることも明らかになりました。
Stats
45%の計算上の節約結果
5つの例文でプロンプトされた際にレイヤー14/32でタスク認識達成
Quotes
"Models do not need to maintain attention over all of the context across every layer to perform the task."
"In all models we observe that when applying masking from {m(j, u)}ℓ:nℓ over the context, performance plateaus before the final layer."
"There exists critical layers for task location."