本論文は、ICCV 2023 1 回目の科学的図キャプション生成チャレンジに対する解決策を提案している。
まず、公式データセットのOCR情報に誤りがあったため、PaddleOCRを用いて正確なOCR情報を抽出した。次に、段落情報に複数の図に関する内容が含まれていたり、長すぎる問題があったため、LLaMaモデルを使って関連性の高い情報に要約した。
さらに、テキスト生成時の最尤推定とキャプション評価指標であるROUGEとの不整合を解消するため、BRIO モデルを導入した。これにより、生成プロセスと評価指標の整合性が向上した。
最終的に、これらの手法を組み合わせて最適化を行い、テストデータセットで最高スコアを獲得した。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Dian Chao,Xi... om arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17342.pdfDiepere vragen