本論文では、最も重要な人物(MIP)の位置特定に関する大規模データセット「MIP-GAF」を提案している。MIP-GAFは、マルチモーダル大規模言語モデルを使用して注釈付けされた16,550枚の画像から構成される。
データ注釈プロセスは以下の通り:
データ分析の結果:
MIP-GAFは、次世代の社会状況理解手法の構築に重要な役割を果たすと考えられる。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Surbhi Madan... kl. arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.06224.pdfDybere Forespørgsler