この記事は、複雑な推論ベースのチャートVQAモデルにおける理解力不足に対処するため、LLMを活用したデータ拡張手法に焦点を当てています。Synthesize Step-by-Step戦略を導入し、LLMベースのデータジェネレーターが複雑な質問をステップバイステップで分解する方法が重要であることを示しています。実験では、提案された手法でトレーニングされたモデルが標準的なベンチマークで大幅な改善を達成しています。特に、ChartQAの人間が書いた質問に対するリラックスした正確さは37.8%から53.9%まで向上しました。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Li Zhuowan,J... klo arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16385.pdfSyvällisempiä Kysymyksiä