Conceitos Básicos
本稿では、画像内のキーポイントの理解と位置特定において、従来の視覚モデルを超える可能性を秘めた、マルチモーダル大規模言語モデル(MLLM)を用いた新しいフレームワーク「KptLLM」を提案する。
Resumo
KptLLM: 大規模言語モデルを用いたキーポイント理解
Jie Yang, Wang Zeng, Sheng Jin, Lumin Xu, Wentao Liu, Chen Qian, Ruimao Zhang. (2024). KptLLM: Unveiling the Power of Large Language Model for Keypoint Comprehension. Advances in Neural Information Processing Systems, 38.
本研究は、画像内のキーポイントの意味理解と位置特定を、マルチモーダル大規模言語モデル(MLLM)を用いて行うことを目的とする。具体的には、キーポイントの意味理解、視覚プロンプトベースのキーポイント検出、テキストプロンプトベースのキーポイント検出という3つのタスクをMLLMで解決することを目指す。