Multimodales Referenzauflösungsdataset für Konversationen in der realen Welt
Wir stellen ein japanisches Konversationsdataset namens J-CRe3 vor, das Egozentrische Videos, Dialogaudio und Annotationen für multimodale Referenzauflösung enthält. Das Dataset zielt darauf ab, Roboter beim Verständnis von Benutzerabsichten in der realen Welt zu unterstützen.