提案するパイプラインは、GPT-4とCLIPを活用して、テキストのみの対話データにイメージを自動的に整合させ、高品質で多様なマルチモーダル対話データセットを構築する。
本論文では、マルチモーダル対話におけるコモングラウンドの自動的な識別と追跡のための手法を提案する。対話参加者間で共有される信念空間を特定し、議論中の主要な論点を明らかにする。