Ferret-v2は、高解像度画像の詳細な理解と、ユーザーの指示に忠実に従うことを目的とした大規模言語モデルである。高解像度画像の処理、多粒度の視覚エンコーディング、段階的な事前学習により、従来のFerretを大幅に改善している。