本論文では、CLOVAという視覚アシスタントを提案している。CLOVAは、推論、反省、学習の3つのフェーズから構成される。
推論フェーズでは、大規模言語モデル(LLM)を使ってプログラムを生成し、対応するツールを実行して課題を解決する。
反省フェーズでは、マルチモーダルなグローバル-ローカルな反省スキームを使って、ツールの更新が必要かどうかを特定する。
学習フェーズでは、3つの柔軟なデータ収集方法と、新しいプロンプトチューニングスキームを使ってツールを効率的に更新する。
これにより、CLOVAは新しい環境に適応することができる。実験結果から、CLOVAは既存の手法に比べて、視覚問題回答タスクで5%、複数画像推論タスクで5%、知識タグ付けタスクで10%、画像編集タスクで20%の性能向上を示した。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問