核心概念
小規模な事前学習済みの画像-テキストモデルを使って、OCRツールやLLMなどの外部ツールの出力を中間的な「ラショナル」として活用することで、視覚的文書理解タスクを効率的に実行できる。
要約
本研究では、視覚的文書理解(VDU)タスクを効率的に実行するために、ラショナル・ディスティレーション(RD)と呼ばれる手法を提案している。
RDでは、OCRツールやLLM、大規模な多モーダルモデルなどの外部ツールの出力を中間的な「ラショナル」として活用し、小規模な学習済みの画像-テキストモデルがそれらのラショナルを予測しつつ最終的な答えを生成するという2段階の処理を行う。
InfoVQA、DocVQA、ChartQAの3つのベンチマークタスクで評価を行った結果、RDを用いた小規模モデルが、直接答えを生成するベースラインモデルと比べて4-5ポイントの精度向上を達成した。さらに、外部ツールを使うことなく、計算コストも1%程度しか増加しないことが示された。
RDでは、OCRテキストの要約や、チャートの構造化テーブルと数値計算プログラムといった2種類のラショナルを活用している。これらのラショナルを予測する際に、データ拡張やDAGGER損失関数の導入などにより、学習の堅牢性を高めている。
分析の結果、RDは特に文字情報や表形式の情報を活用する問題で大きな効果を発揮することが分かった。一方で、プログラムを使ったラショナルの活用など、さらなる改善の余地も示唆された。
統計
26,000 ftの高度では酸素が不足し、人間の生命を維持できない
2007年の信頼度は28%、不信感は67%
2017年の信頼度は5%、不信感は93%
信頼度と不信感の差は2017年で88ポイント
引用
"Understanding visually situated language requires interpreting complex layouts of textual and visual elements."
"Can small pretrained image-to-text models accurately understand visual documents through similar recognition and reasoning steps instead?"
"We propose Rationale Distillation (RD), which incorporates the outputs of OCR tools, LLMs, and larger multimodal models as intermediate "rationales", and trains a small student model to predict both rationales and answers."