本研究では、テキスト浄化タスクを、非攻撃的な言語スタイルへのパラフレーズとして定義している。具体的には、(i)中性的な言語スタイルを持つ、(ii)元の意味内容を可能な限り保持する、(iii)入力テキストと同等以上の流暢さを持つ、というタスク目標を設定している。
これまでは、非並列の有害発言分類コーパスのみを使った教師なし手法が提案されていた。しかし、ParaDetoxやAPPADIAなどの並列コーパスを使った手法が、非並列コーパスを使った手法を上回る性能を示している。
本研究では、ParaDetoxのパイプラインを拡張し、MultiParaDetoxを提案する。これにより、任意の言語に対して並列テキスト浄化コーパスを自動収集できるようになった。具体的には、以下の3ステップで実現している:
本研究では、この手法を使って、スペイン語、ロシア語、ウクライナ語の3言語の新しい並列データセットを収集した。さらに、これらのデータセットを使って、教師なし手法、大規模言語モデル、教師あり微調整モデルの性能を評価した。その結果、並列データを使った教師あり手法が最も優れた性能を示すことを確認した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Daryna Demen... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.02037.pdfDeeper Inquiries