Core Concepts
TinyChartは、ビジュアルトークンマージングとプログラムオブシンキングの学習を通して、効率的なチャート理解を実現する。
Abstract
本論文では、効率的なチャート理解を実現するTinyChartモデルを提案している。TinyChartは以下の2つの主要な課題に取り組んでいる:
プログラムオブシンキング(PoT)学習戦略を通して、数値計算の学習負荷を軽減する。PoT学習では、モデルにPythonプログラムを生成させ、それを実行することで数値計算を行う。
ビジュアルトークンマージングモジュールを導入し、高解像度の入力画像に対して効率的にエンコーディングを行う。これにより、高解像度の入力を維持しつつ、計算コストを抑えることができる。
実験の結果、TinyChartは13Bパラメータを持つ既存のチャート理解モデルを上回る性能を示し、同時に高速な推論スループットも実現している。特に、PoT学習によりチャートQAの数値計算問題の解答精度が大幅に向上した。また、ビジュアルトークンマージングにより高解像度入力に対する効率的なエンコーディングが可能となった。
Stats
42%の質問は数値計算を必要とする
34%のオンラインセールスが玩具カテゴリで増加した
10%のベビー用品のオンラインセールスが増加した
Quotes
"チャートは、データ関係を提示し説明するための重要な手段である。"
"最近のマルチモーダル大規模言語モデル(MLLM)は、様々なチャート理解タスクで顕著な能力を示している。"
"TinyChartは、13Bパラメータのモデルを上回るパフォーマンスを示し、同時に高速な推論スループットも実現している。"