핵심 개념
SAFER-INSTRUCTは、リバース命令チューニング、命令誘導、専門家モデル評価を活用して、人手による注釈なしに高品質な好みデータを自動的に生成する。これにより、より安全で責任あるAIシステムの開発を促進する。
초록
本研究では、SAFER-INSTRUCTと呼ばれる新しいパイプラインを提案している。このパイプラインは以下の4つのステップから構成される:
- リバース命令チューニング: 応答から命令を生成するモデルを訓練する。
- 命令誘導: 応答データから命令を自動生成する。
- 低品質命令のフィルタリング: GPT-4を使って安全でない命令を選別する。
- 応答生成: 専門家モデル(GPT-4)を使って好ましい応答を生成し、さらにフィルタリングする。
この自動化されたパイプラインにより、人手による注釈の必要性を大幅に削減しつつ、大規模な好みデータを効率的に構築できる。
本研究では、このパイプラインを使って安全性好みデータセット(SI)を構築した。SIデータセットを使ってAlpacaモデルを訓練したところ、安全性が大幅に向上しつつ、他のタスクでの性能も維持できることが示された。
SAFER-INSTRUCTは、安全性好みデータに限らず、様々なドメインの好みデータを自動生成できる汎用的なフレームワークである。これにより、より安全で責任あるAIシステムの開発が促進される。
통계
生成したデータセットには合計10,254件のサンプルが含まれる
そのうち、憎悪的発言が3,274件、性的コンテンツが2,149件、違法行為が2,384件、自傷行為が2,447件
命令の平均長は62.90トークン、好ましい応答の平均長は82.07トークン、好ましくない応答の平均長は78.80トークン