Core Concepts
JDocQAは、日本語の文書(スライド、レポート、パンフレット、ウェブサイトなど)に基づいた質問応答タスクのデータセットであり、テキストと視覚情報の両方を活用して質問に答える必要がある。
Abstract
JDocQAデータセットの概要:
5,504の日本語文書(スライド、レポート、パンフレット、ウェブサイト)から構成され、11,600の質問-答え対が収録されている。
4つの質問カテゴリ(Yes/No、事実、数値、オープンエンド)と、文書中に答えがない「回答不可能」な質問が含まれる。
各質問には、答えの根拠となる文書ページや図表の位置情報が付与されている。
実験結果:
大規模言語モデルをファインチューニングすることで、JDocQAタスクの性能が向上した。
回答不可能な質問を含めてモデルを訓練することで、過剰生成(hallucination)の抑制に寄与する可能性がある。
視覚情報を活用するマルチモーダルモデルが、テキストのみのモデルよりも良好な性能を示した。
文書形式(スライド、レポート、パンフレット)によって、モデルの性能に差がある。
Stats
2002年の走行距離は124,344kmです。
イランの2016年の実質GDPと消費者物価指数の推移に影響した全要因は本文中に記載がありません。