本研究では、SAFER-INSTRUCTと呼ばれる新しいパイプラインを提案している。このパイプラインは以下の4つのステップから構成される:
この自動化されたパイプラインにより、人手による注釈の必要性を大幅に削減しつつ、大規模な好みデータを効率的に構築できる。
本研究では、このパイプラインを使って安全性好みデータセット(SI)を構築した。SIデータセットを使ってAlpacaモデルを訓練したところ、安全性が大幅に向上しつつ、他のタスクでの性能も維持できることが示された。
SAFER-INSTRUCTは、安全性好みデータに限らず、様々なドメインの好みデータを自動生成できる汎用的なフレームワークである。これにより、より安全で責任あるAIシステムの開発が促進される。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Taiwei Shi,K... às arxiv.org 04-02-2024
https://arxiv.org/pdf/2311.08685.pdfPerguntas Mais Profundas