本研究では、アラビア語のサルカズム検出モデルにおけるEmoji除外の影響を調査した。アラビア語は語彙が豊富で方言も多様であり、サルカズムの表現には文脈的な手がかりが重要となる。一方で、ソーシャルメディアでは絵文字(Emoji)が広く使われ、言語的な表現の欠如を補完する役割を果たしている。
研究では、3つのアラビア語データセット(SemEval 2020、YouTube、L-HSAB)を用いて、AraBERT系の3つのモデル(AraBERT_v2、AraBERTv02-twitter、multi_dialect_bert_base_arabert)の性能を評価した。Emojiを含むデータと除外したデータで比較したところ、Emojiを除外した場合の方が、正確度、再現率、適合率、F1スコアが全体的に向上することが示された。
これらの結果から、アラビア語のサルカズム検出においては、Emojiを除外することで、言語的な分析に集中でき、モデルの性能が向上することが明らかになった。Emojiは文脈の理解を阻害する可能性があり、その除外が重要であることが示唆された。本研究は、アラビア語の自然言語処理における新たな基準を示すとともに、ソーシャルメディアプラットフォームにとっても有益な知見を提供するものである。
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Ghalyah H. A... klokken arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.02195.pdfDypere Spørsmål