이 연구는 온라인 게임 플레이어들 사이에서 발생하는 악성 대화 문제를 해결하기 위해 사전 훈련된 언어 모델의 활용 가능성을 탐구했다.
데이터 수집 단계에서는 DOTA 2 게임의 채팅 데이터를 OpenDota API를 통해 수집하고, 이를 비악성, 경미한 악성, 악성 대화로 분류했다. 수집된 데이터에는 불균형이 존재했기 때문에 과소 표집 기법을 적용해 데이터셋을 균형화했다.
이후 BERT(Base-uncased), BERT(Large-uncased), GPT-3 모델을 활용해 게임 내 악성 대화 탐지 성능을 평가했다. 그 결과, GPT-3 모델이 83%의 가장 높은 정확도를 보였고, BERT(Large-uncased)와 BERT(Base-uncased)가 각각 82%, 80%의 정확도를 나타냈다.
이를 통해 사전 훈련된 언어 모델이 게임 내 악성 대화 탐지에 효과적으로 활용될 수 있음을 확인했다. 향후 연구에서는 데이터 수집 범위를 다양한 게임 플랫폼으로 확장하고, 다른 언어 모델 변형을 시도할 필요가 있다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問