מושגי ליבה
大規模な言語モデルを特定の文脈規制に合わせるアプローチとアーキテクチャを提案する。
תקציר
大規模な言語モデルの調整に関する新しいアプローチとアーキテクチャが紹介されている。
Alignment StudioアーキテクチャはFramers、Instructors、Auditorsの3つの主要コンポーネントで構成されており、それぞれ異なる役割を果たす。
文脈に応じた特定の規制に合わせて言語モデルを微調整することが重要であることが強調されている。
ユースケースや文脈によっては、一般的な配慮だけでは不十分であり、個別の望ましい振る舞いが必要とされることが述べられている。
INTRODUCTION
大規模な言語モデル(LLMs)は通常、提供者によって微調整され、一般的な心配事に合わせられている。
しかし、すべての次元を考慮した微調整は必ずしも望ましいとは限らず、文脈が重要であることが指摘されている。
FRAMERS
Framersモジュールは知識工学や生成AI技術を適用してLMMモデルに望ましい振る舞いを組み込むためのインストラクションデータおよびシナリオデータを生成する。
INSTRUCTORS
InstructorsコンポーネントではSFTやRLFTなどの手法を使用してLMMを所望の値や振る舞いに微調整する。
AUDITORS
AuditorsコンポーネントはFramersから得られたデータとInstructorsから得られた方法が所望条件全体に対して適切かどうか確認する責任がある。
סטטיסטיקה
LLMは一般的な心配事(憎しみ、排他性、有害性など)から逸脱した行動も可能。
ציטוטים
"Context matters. Every industry, sector, jurisdiction, culture, and use case has its own unique and particular desired behaviors that are not captured in a common taxonomy."