この記事は、複雑な推論ベースのチャートVQAモデルにおける理解力不足に対処するため、LLMを活用したデータ拡張手法に焦点を当てています。Synthesize Step-by-Step戦略を導入し、LLMベースのデータジェネレーターが複雑な質問をステップバイステップで分解する方法が重要であることを示しています。実験では、提案された手法でトレーニングされたモデルが標準的なベンチマークで大幅な改善を達成しています。特に、ChartQAの人間が書いた質問に対するリラックスした正確さは37.8%から53.9%まで向上しました。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Li Zhuowan,J... a las arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16385.pdfConsultas más profundas