本研究では、視覚的文書理解(VDU)タスクを効率的に実行するために、ラショナル・ディスティレーション(RD)と呼ばれる手法を提案している。
RDでは、OCRツールやLLM、大規模な多モーダルモデルなどの外部ツールの出力を中間的な「ラショナル」として活用し、小規模な学習済みの画像-テキストモデルがそれらのラショナルを予測しつつ最終的な答えを生成するという2段階の処理を行う。
InfoVQA、DocVQA、ChartQAの3つのベンチマークタスクで評価を行った結果、RDを用いた小規模モデルが、直接答えを生成するベースラインモデルと比べて4-5ポイントの精度向上を達成した。さらに、外部ツールを使うことなく、計算コストも1%程度しか増加しないことが示された。
RDでは、OCRテキストの要約や、チャートの構造化テーブルと数値計算プログラムといった2種類のラショナルを活用している。これらのラショナルを予測する際に、データ拡張やDAGGER損失関数の導入などにより、学習の堅牢性を高めている。
分析の結果、RDは特に文字情報や表形式の情報を活用する問題で大きな効果を発揮することが分かった。一方で、プログラムを使ったラショナルの活用など、さらなる改善の余地も示唆された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Wang Zhu,Ale... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2311.09612.pdfDeeper Inquiries