本論文では、最も重要な人物(MIP)の位置特定に関する大規模データセット「MIP-GAF」を提案している。MIP-GAFは、マルチモーダル大規模言語モデルを使用して注釈付けされた16,550枚の画像から構成される。
データ注釈プロセスは以下の通り:
データ分析の結果:
MIP-GAFは、次世代の社会状況理解手法の構築に重要な役割を果たすと考えられる。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Surbhi Madan... alle arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.06224.pdfDomande più approfondite