Core Concepts
日本語ビジネスドメイン向けの大規模言語モデルを事前学習し、最新のビジネス文書で継続的に更新することで、ビジネス関連の質問に対する正答率を向上させる。
Abstract
本研究では、日本語ビジネスドメイン向けの大規模言語モデルを開発した。以下の3つの主な取り組みを行った:
特許文書やビジネス関連Webページなどのドメイン特化データと、WikipediaやmC4などの一般ドメインデータを組み合わせて、13億パラメータの日本語ビジネスモデルを事前学習した。
最新のビジネス文書を用いて継続的に事前学習を行い、ビジネス関連の最新情報に適応できるようにした。過去の知識を保持しつつ新しい知識を獲得するため、最新文書と過去文書を混合して学習した。
ビジネスドメインの質問応答タスクのベンチマークを新たに作成し、提案モデルの評価を行った。事前学習モデルは、文脈なしの質問に対して最も高い正答率を示し、継続学習モデルは最新の情報に関する質問に強いことが分かった。
本研究は、日本語ビジネスドメイン向けの大規模言語モデルの開発と評価を行った先駆的な取り組みである。提案モデルとベンチマークは公開されており、今後の日本語ビジネスドメインのNLP研究に貢献することが期待される。
Stats
2023年3月に経営破綻した2つの米国銀行はシリコンバレー銀行とシグネチャー銀行である。
2023年10月から11月にかけての最新のビジネス関連トピックに関する質問に対して、継続学習モデルは事前学習モデルよりも高い正答率を示した。
Quotes
"ビジネス関連の質問に答えるには、時事問題、企業活動、社会問題に関する知識が必要である。"
"日本語の大規模言語モデルは英語ほど研究が進んでおらず、特にドメイン特化モデルは存在しない。"