本研究では、SAFER-INSTRUCTと呼ばれる新しいパイプラインを提案している。このパイプラインは以下の4つのステップから構成される:
この自動化されたパイプラインにより、人手による注釈の必要性を大幅に削減しつつ、大規模な好みデータを効率的に構築できる。
本研究では、このパイプラインを使って安全性好みデータセット(SI)を構築した。SIデータセットを使ってAlpacaモデルを訓練したところ、安全性が大幅に向上しつつ、他のタスクでの性能も維持できることが示された。
SAFER-INSTRUCTは、安全性好みデータに限らず、様々なドメインの好みデータを自動生成できる汎用的なフレームワークである。これにより、より安全で責任あるAIシステムの開発が促進される。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor