本稿では、マルチモーダル対話を通じて画像検索を行う、より直感的で高度な検索システムの実現を目指し、新たなデータセットChatSearchと生成検索モデルChatSearcherを提案する。
ユーザーのフィードバックに基づいて、視覚言語モデルを用いてクエリを段階的に改善することで、対話型画像検索の性能を向上させる。さらに、大規模言語モデルを用いてクエリの冗長な情報を除去することで、クエリの質を高める。