本研究では、Multilingual Reverse Instructions (MURI)と呼ばれる新しい手法を提案している。MURIは、既存の人間が書いた文章を利用し、機械翻訳とLLMを組み合わせることで、低リソース言語向けの命令チューニングデータセットを作成する。
具体的には以下の手順で行う:
この手法により、人手による注釈や既存の多言語モデルを必要とせずに、文化的に適切で多様な命令チューニングデータセットを作成できる。
作成したデータセット「MURI-IT」は200言語にわたり200万以上のサンプルを含む。ネイティブスピーカーによる評価と、mT5モデルを使った実験の結果、MURIの有効性が示された。特に低リソース言語においても、既存のデータセットと組み合わせることで性能向上が確認された。
今後の課題としては、データの質をさらに向上させること、より高度な多言語モデルを活用することなどが挙げられる。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések