toplogo
Sign In

言語モデルの監督なしでの潜在知識の発見


Core Concepts
言語モデルの内部活性化における潜在知識を直接的に見つける方法を提案する。
Abstract
UC BerkeleyとPeking Universityの研究者らは、言語モデルの訓練技術が真実と一致しないことを指摘。模倣学習で訓練すると、人間が犯すエラーを再現する可能性があり、高く評価されるテキストを生成するように訓練すると、人間評価者が正確性を判断できないエラーを出力する可能性がある。そのため、彼らは完全に非監督的な方法で言語モデルの内部活性化から潜在知識を直接見つけることを提案している。具体的には、未ラベル付きモデル活性化だけからYes-No質問に正確に答える方法を導入している。この方法は論理的整合特性を満たす活性化空間内の方向を見つけて動作し、大規模な言語モデルに表現された多様な知識を回復できることを示している。さらに、この手法はプロンプト感度を半分に削減し、モデルが不正解回答を生成するよう促されても高い精度を維持し続けることも示している。
Stats
6つのモデルと10個の質問応答データセット全体で、ゼロショット精度よりも平均4%優れた結果が得られた。 ゼロショット精度が最大9.5%低下した場合でもCCSの精度は変わらず高かった。 CCSは中間層の隠れ層で最も効果的であり、出力から情報収集されていなくても動作可能。
Quotes
"我々は何も監督せず、また何もモデル出力せずに多様な知識回復手法が大規模な言語モデル内部表現されていること示した" - 研究者ら "CCSは強力なゼロショット基準よりも平均4%優れた結果" - 研究者ら

Key Insights Distilled From

by Collin Burns... at arxiv.org 03-05-2024

https://arxiv.org/pdf/2212.03827.pdf
Discovering Latent Knowledge in Language Models Without Supervision

Deeper Inquiries

外部地面事実へアクセスしなくても言語モデル内部表現から真実情報抽出可能か?

提供された文脈に基づいて、本研究では言語モデルの内部表現を活用して真実情報を抽出する方法が示されています。具体的には、Contrast-Consistent Search(CCS)という手法が導入されており、この手法はラベルやモデルの出力に依存せずに高い精度で分類を行うことが可能です。CCSは隠れ層の方向性を見つけることで真偽判定を行い、その結果多様な知識を回復することが示されました。 言語モデルの内部表現から真実情報を抽出する能力は、人間評価者や外部地面事実ラベルへ依存せずに成立します。これは重要な点であり、特に人間評価者が正確性判断困難な場合や明示的地面事実ラベルが利用できない状況でも有効です。したがって、本手法では言語モデル自体の学習内容から直接的かつ信頼性の高い知識抽出が可能となります。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star