本研究では、画像と記事から構築されたニュース認識規則をBARTモデルに組み込むことで、指定された規則信号に従ってキャプションを生成する手法を提案しました。提案手法は、大規模公開データセットでの実験を通じてその有効性が確認されました。具体的には、提案手法は他の手法よりも優れたパフォーマンスを示し、人名や固有名詞などの正確な記述能力が向上しています。さらに、深いエンコーダーレイヤーへの規則埋め込みが最も適していることが示されました。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Ning Xu,Ting... lúc arxiv.org 03-11-2024
https://arxiv.org/pdf/2403.05101.pdfYêu cầu sâu hơn