Core Concepts
多言語の毒性緩和に関する包括的な研究を通じて、文化的に敏感な言語技術への移行を促す。
Abstract
この研究は、多言語の毒性緩和に焦点を当て、異なるアプローチやデータ特性、翻訳データの利用と影響、およびこれらの技術のスケーラビリティについて探求しています。PerspectiveAPIスコアが言語間で異なることや、翻訳が文の毒性を低下させる傾向があることが示されました。また、翻訳されたデータが大きなインパクトを持つことも明らかになりました。この研究は、将来的な取り組みに向けた基盤作りを行っており、よりグローバルで文化的に敏感な言語技術への移行を促しています。
Stats
多言語モデルサイズ:1.3Bから13Bへスケールアップ
異なるデータストアサイズ(10K有害トークンと20K非有害トークン)でGoodtriever評価
Quotes
"Translation tends to decrease sentence toxicity." - 研究結果から
"Translated datasets can outperform larger, in-language datasets." - 結論から