Core Concepts
画像キャプションと物体検出を同時に行うTICODモデルは、Swin TransformerとGPT2を組み合わせて、BERTScoreで優れたパフォーマンスを達成します。
Abstract
インド工科大学ハイデラバードのDebolena Basakらによる研究では、新しいマルチタスク学習フレームワークTICODが紹介されました。このフレームワークは、画像キャプションと物体検出を結合し、Swin TransformerとGPT2を使用して両方のタスクを同時に実行します。これにより、BERTScoreで優れた画像キャプション性能が向上し、物体検出性能も保持されます。このアプローチは、汎用的なマルチタスクモデルPix2seq-V2よりもパフォーマンスが向上する可能性があります。
Stats
ベースラインから画像キャプション文法B1: 82.1%
TICOD-largeにおけるBERTScore: 70.794
Quotes
"我々の提案したTICOD-largeモデルは、BERTScoreで他のすべての基準値を上回しています。"
"Swim Transformerアーキテクチャに基づく当社のモデルは、オブジェクト検出においても優れたパフォーマンスを発揮しています。"