本調査では、人工知能アラインメントの核となる概念、方法論、実践について包括的に解説する。
まず、ロバスト性、解釈可能性、制御可能性、倫理性(RICE)の4つの原則を人工知能アラインメントの主要目標として特定する。これらの目標に基づき、現在のアラインメント研究を前方アラインメントと後方アラインメントの2つの主要コンポーネントに分解する。
前方アラインメントは、アラインメント学習を通じて人工知能システムをアラインさせることを目的とする。具体的には、フィードバックからの学習、分布シフトに対する学習について論じる。後方アラインメントは、システムのアラインメントを保証し、適切に管理することを目的とする。具体的には、安全性評価、解釈可能性、人間の価値観への適合性について検討し、政府、産業界、その他の第三者による現在および今後の人工知能リスク管理の取り組みについて議論する。
本調査は、人工知能アラインメント研究トピックの包括的かつ初心者向けのレビューを提供することを目的とする。また、www.alignmentsurvey.comのウェブサイトを公開し、チュートリアル、論文集、ブログ投稿、その他のリソースを継続的に更新していく。
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Jiaming Ji,T... às arxiv.org 05-02-2024
https://arxiv.org/pdf/2310.19852.pdfPerguntas Mais Profundas