Grunnleggende konsepter
MIntRec2.0은 대화 상황에서 텍스트, 비디오, 오디오 정보를 활용하여 30개의 세부적인 의도 클래스를 인식하고 범위 외 발화를 탐지하는 대규모 벤치마크 데이터셋이다.
Sammendrag
MIntRec2.0은 대화 의도 인식 연구를 위한 대규모 다중 모달리티 데이터셋이다. 이 데이터셋은 다음과 같은 특징을 가진다:
- 3개의 TV 시리즈에서 수집한 1,245개의 고품질 대화로 구성되어 있으며, 총 15,040개의 발화를 포함한다.
- 30개의 세부적인 의도 클래스와 범위 외 발화를 포함하는 새로운 의도 분류 체계를 제안했다.
- 각 발화에 대한 화자 정보를 제공하여 다중 화자 대화 상황을 반영했다.
- 9,304개의 범위 내 발화와 5,736개의 범위 외 발화로 구성되어 있어, 실제 대화 상황에서 발생할 수 있는 범위 외 발화를 고려했다.
이 데이터셋은 다중 모달리티 정보를 활용하여 대화 의도를 인식하고 범위 외 발화를 탐지하는 연구에 활용될 수 있다. 실험 결과, 다중 모달리티 정보를 활용하면 의도 인식 정확도와 범위 외 탐지 성능을 향상시킬 수 있지만, 여전히 개선의 여지가 많다. 특히 대화 맥락 정보와 범위 외 발화 처리에서 큰 도전과제가 존재한다. 또한 강력한 언어 모델인 ChatGPT와 비교했을 때, 인간의 성능이 크게 앞서는 것으로 나타나, 이 데이터셋이 인간 수준의 고차원적 의도 이해 과제에 대한 중요한 벤치마크가 될 것으로 기대된다.
Statistikk
대화 상황에서 화자가 "no religious crap in the store"라고 말하며 거부하는 의도를 나타낸다.
대화 상황에서 화자가 "With a baby jesus and three wise men?"이라고 말하며 의아해하는 의도를 나타낸다.
Sitater
"Multimodal intent recognition poses significant challenges, requiring the incorporation of non-verbal modalities from real-world contexts to enhance the comprehension of human intentions."
"Notably, powerful large language models exhibit a significant performance gap compared to humans, highlighting the limitations of machine learning methods in the advanced cognitive intent understanding task."