本研究では、日本語ビジネスドメイン向けの大規模言語モデルを開発した。以下の3つの主な取り組みを行った:
特許文書やビジネス関連Webページなどのドメイン特化データと、WikipediaやmC4などの一般ドメインデータを組み合わせて、13億パラメータの日本語ビジネスモデルを事前学習した。
最新のビジネス文書を用いて継続的に事前学習を行い、ビジネス関連の最新情報に適応できるようにした。過去の知識を保持しつつ新しい知識を獲得するため、最新文書と過去文書を混合して学習した。
ビジネスドメインの質問応答タスクのベンチマークを新たに作成し、提案モデルの評価を行った。事前学習モデルは、文脈なしの質問に対して最も高い正答率を示し、継続学習モデルは最新の情報に関する質問に強いことが分かった。
本研究は、日本語ビジネスドメイン向けの大規模言語モデルの開発と評価を行った先駆的な取り組みである。提案モデルとベンチマークは公開されており、今後の日本語ビジネスドメインのNLP研究に貢献することが期待される。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問