Keskeiset käsitteet
KoCoSa는 12.8K개의 일상적인 한국어 대화와 마지막 응답에 대한 풍자 탐지 레이블로 구성된 새로운 데이터셋입니다. 대화 맥락을 활용하여 풍자를 정확하게 탐지하는 것이 중요하며, KoCoSa는 이를 위한 데이터셋을 제공합니다.
Tiivistelmä
이 논문은 한국어 문맥 인식 풍자 탐지 데이터셋 KoCoSa를 소개합니다. KoCoSa는 12.8K개의 일상적인 한국어 대화와 마지막 응답에 대한 풍자 탐지 레이블로 구성되어 있습니다.
데이터셋 구축 과정:
- 대규모 언어 모델을 활용하여 기존 대화에서 새로운 풍자 대화 생성
- 비정상적이거나 유해한 대화 자동 및 수동 필터링
- 전문가 annotator를 통한 풍자 탐지 레이블링
실험 결과, 제안된 베이스라인 시스템이 GPT-3.5와 같은 강력한 모델을 능가하는 성능을 보였습니다. 또한 대화 맥락의 중요성을 확인하였으며, 인간의 풍자 탐지 능력에는 아직 미치지 못하는 것으로 나타났습니다.
Tilastot
대화 당 평균 4.3개의 발화로 구성되어 있습니다.
대화 당 평균 40.3개의 토큰으로 구성되어 있습니다.
발화 당 평균 9.3개의 토큰으로 구성되어 있습니다.
풍자 레이블이 있는 대화는 7,608개(59.3%), 비풍자 레이블이 있는 대화는 5,216개(40.7%)입니다.
Lainaukset
"Sarcasm is a way of verbal irony where someone says the opposite of what they mean, often to ridicule a person, situation, or idea."
"Sarcasm detection poses a different challenge compared to general sentiment analysis tasks, primarily due to its sensitivity to the presence or absence of context."