Core Concepts
목표 지향적 대화 시스템을 위해 대화 데이터를 활용하여 자동으로 의도를 추출하고 발화를 분류하는 방법을 제안한다.
Abstract
이 연구는 목표 지향적 대화 시스템을 위한 자동 시나리오 생성 연구의 일환으로 진행되었다.
먼저 대화 데이터의 사전 처리 방법을 설명하였다. MultiWOZ 2.2 데이터셋을 활용하여 사용자 의도(intent) 집합을 구축하고, 일반적인 의도(인사, 감사 등)도 추가하였다.
의도 추출을 위해 BERTopic 기법과 잠재 디리클레 할당(LDA) 기법을 비교하였다. BERTopic 기법이 더 나은 성능을 보였으며, 이를 통해 기존 의도 집합에 새로운 의도(만족스러운 대화 종료, 감사 표현 등)를 추가할 수 있었다.
발화 분류를 위해 로지스틱 회귀와 BERT 모델을 비교하였다. BERT 모델(bert-base-uncased)이 정확도(0.80), F1 점수(0.78), Matthews 상관 계수(0.74)에서 더 좋은 성능을 보였다.
이를 통해 목표 지향적 대화 시스템을 위한 의도 추출 및 발화 분류 기술을 개발할 수 있었다. 향후 연구에서는 시나리오 생성 및 대화 컨텍스트 유지 등의 기능을 추가할 계획이다.
Stats
사용자 의도 중 'find_hospital'과 'find_bus'는 데이터가 부족하여 제외하였다.
BERT 모델(bert-base-uncased)은 정확도 0.80, F1 점수 0.78, Matthews 상관 계수 0.74를 달성하였다.
Quotes
"현대 기계 학습 기술을 활용하면 목표 지향적 대화 시스템을 위한 시나리오를 자동으로 생성할 수 있다."
"BERTopic 기법은 기존 의도 집합에 새로운 의도를 추가할 수 있는 장점이 있다."
"BERT 모델은 로지스틱 회귀 모델에 비해 발화 분류 성능이 우수하다."