この記事は、複雑な推論ベースのチャートVQAモデルにおける理解力不足に対処するため、LLMを活用したデータ拡張手法に焦点を当てています。Synthesize Step-by-Step戦略を導入し、LLMベースのデータジェネレーターが複雑な質問をステップバイステップで分解する方法が重要であることを示しています。実験では、提案された手法でトレーニングされたモデルが標準的なベンチマークで大幅な改善を達成しています。特に、ChartQAの人間が書いた質問に対するリラックスした正確さは37.8%から53.9%まで向上しました。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Li Zhuowan,J... kl. arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16385.pdfDybere Forespørgsler