本研究では、SAFER-INSTRUCTと呼ばれる新しいパイプラインを提案している。このパイプラインは以下の4つのステップから構成される:
この自動化されたパイプラインにより、人手による注釈の必要性を大幅に削減しつつ、大規模な好みデータを効率的に構築できる。
本研究では、このパイプラインを使って安全性好みデータセット(SI)を構築した。SIデータセットを使ってAlpacaモデルを訓練したところ、安全性が大幅に向上しつつ、他のタスクでの性能も維持できることが示された。
SAFER-INSTRUCTは、安全性好みデータに限らず、様々なドメインの好みデータを自動生成できる汎用的なフレームワークである。これにより、より安全で責任あるAIシステムの開発が促進される。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Taiwei Shi,K... ที่ arxiv.org 04-02-2024
https://arxiv.org/pdf/2311.08685.pdfสอบถามเพิ่มเติม