本研究では、ロボットの好奇心を活用し、物理的な世界の探索を通じて、教師なしでカテゴリを発見する手法を提案している。ロボットは、視覚的特徴に基づいて、徐々に探索空間を細かいカテゴリに分割していく。この過程で発見されたカテゴリに、後から専門家が単語を接地することができる。
実験では、Cozmoロボットを使用し、2つのオブジェクト(猫とゾウ)を含む限定的な環境で探索を行った。ロボットは、YOLOとCLIPを使ってオブジェクトを検出・表現し、Explautoのモデルを使って好奇心に基づいて探索を行った。その結果、オブジェクトの境界に沿ってカテゴリが発見されることが示された。さらに、発見されたカテゴリに対してWord-as-Classifierモデルを適用し、カテゴリを識別できることを確認した。
最後の実験では、より汎用的な物体検出モデルのSegment Anythingと特徴表現モデルのDINOv2を使用したパイプラインを検討した。この手法では、背景ノイズの中からオブジェクトを安定して検出・表現できるようになり、より現実的な環境での適用が期待できる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Catherine He... at arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03092.pdfDeeper Inquiries