本研究では、ParaDetoxパイプラインを拡張し、任意の言語に対して並列テキスト浄化コーパスを自動収集するMultiParaDetoxを提案する。収集したデータを使って、教師なし手法、大規模言語モデル、教師あり微調整モデルの性能を評価し、並列コーパスの有効性を示す。