本研究では、ドローン知覚における大規模多様モデル(LMM)の活用可能性を探る。具体的には、人物検出とアクション認識タスクを対象に、YOLO-WorldとGPT-4Vの2つの著名なLMMを評価した。
人物検出では、YOLO-Worldが良好な検出性能を示した。一方、GPT-4Vは人物の位置や行動を正確に判別することが困難であった。しかし、不要な領域提案をフィルタリングしたり、シーンの概要を記述することができる可能性がある。
アクション認識では、GPT-4Vが12のアクションクラスを正確に分類することができなかった。これは、データセット内の人物が複数のアクションを同時に行うなど、タスクが本質的に難しいことが原因と考えられる。
今後の課題として、GPT-4Vにいくつかの教師データを与えるなどして、少量学習によるパフォーマンス向上を目指す。また、ドローンの救助活動などの実用シナリオでの適用可能性を検討する。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Chri... om arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01571.pdfDiepere vragen