本研究では、画像と記事から構築されたニュース認識規則をBARTモデルに組み込むことで、指定された規則信号に従ってキャプションを生成する手法を提案しました。提案手法は、大規模公開データセットでの実験を通じてその有効性が確認されました。具体的には、提案手法は他の手法よりも優れたパフォーマンスを示し、人名や固有名詞などの正確な記述能力が向上しています。さらに、深いエンコーダーレイヤーへの規則埋め込みが最も適していることが示されました。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Ning Xu,Ting... alle arxiv.org 03-11-2024
https://arxiv.org/pdf/2403.05101.pdfDomande più approfondite