Core Concepts
다국어 소셜미디어 콘텐츠의 오프라인 위해 가능성을 정확하게 예측하기 위해 사전 훈련된 모델과 대조 학습 기법을 활용한 앙상블 모델을 제안하였다.
Abstract
이 논문은 TRAC-2024 오프라인 위해 가능성 식별 과제에 참여한 NJUST-KMG팀의 방법론을 설명한다. 이 과제는 소셜미디어 상의 콘텐츠가 실제 오프라인 상황에서 야기할 수 있는 위해 가능성을 예측하는 것이 목표이다.
팀은 다음과 같은 접근법을 취했다:
사전 훈련된 언어 모델(XLM-R, MuRILBERT, BanglaBERT 등)을 미세 조정하여 활용
대조 학습 기법을 도입하여 유사한 카테고리 간 구분력 향상
다양한 모델의 예측 결과를 앙상블하여 성능 향상
실험 결과, 앙상블 모델이 가장 높은 F1 점수(0.73)를 달성했다. 대조 학습 기법 도입과 앙상블 전략이 다국어 소셜미디어 콘텐츠의 미묘한 맥락을 이해하는 데 도움이 된 것으로 나타났다.
그러나 여전히 희귀 언어 표현과 문화적 관용어 이해에 어려움이 있어, 향후 연구에서는 이를 보완할 필요가 있다.
Stats
다국어 소셜미디어 콘텐츠의 오프라인 위해 가능성 예측 과제에서 앙상블 모델이 F1 점수 0.73을 달성했다.
대조 학습 기법 도입 시 MuRILBERT와 BanglaBERT 모델의 F1 점수가 각각 0.700과 0.695로 향상되었다.
다양한 앙상블 전략 중 평균 앙상블이 가장 높은 F1 점수 0.731을 기록했다.
Quotes
"다국어 소셜미디어 콘텐츠의 미묘한 맥락을 이해하고 정확하게 위해 가능성을 예측하는 것이 이 과제의 핵심 과제이다."
"대조 학습 기법은 유사한 카테고리 간 구분력을 높이는 데 효과적이었다."
"앙상블 전략은 개별 모델의 강점을 통합하여 성능을 향상시켰다."