Core Concepts
JDocQAデータセットは、PDFフォーマットの5,504件の文書と11,600件の質問回答ペアを含む大規模な日本語の文書ベースの質問応答データセットです。各質問回答ペアには、文書のページ参照とアンサーのヒントとなる境界ボックスが含まれています。
Abstract
JDocQAデータセットは以下の特徴を持っています:
5,504件の日本語文書(スライド、レポート、ウェブサイト、パンフレット)から構成されています。
11,600件の質問回答ペアがアノテーションされています。
4つの質問カテゴリ(Yes/No、事実、数値、オープンエンド)と、文書内に答えがない「回答不可能」な質問が含まれています。
各質問回答ペアには、文書のページ参照とアンサーのヒントとなる境界ボックスが含まれています。
1,000件の複数ページにまたがる質問が含まれています。
このデータセットは、日本語の文書理解と多モーダルな質問応答を評価するために設計されています。実験の結果、大規模言語モデルのファインチューニングによる性能向上が確認されました。また、回答不可能な質問を含めることで、言語モデルのホールシネーション(虚構の生成)を抑制できる可能性が示唆されました。
Stats
売却区分番号15J001のトヨタプロボックスは、初年度登録が平成14年(2002年)で、走行距離が124,344kmです。
車検有効期限は平成27年10月13日(2015年10月13日)です。