本論文は、NLPシステムが使用と言及の区別ができないことが、有害な発言の検出と反対意見の検閲につながる問題について分析したものである。
まず、使用と言及の違いを説明する。使用とは、発話者の意図を表すことであり、言及とは、誰かが言ったことを引用したり、単語の性質について述べることである。この区別は、オンラインでの反対意見に特に重要である。反対意見は有害な内容を否定するために、しばしばそれを引用するが、それ自体は有害ではない。
しかし、最新のNLPモデルでも、この使用と言及の区別ができていないことが示された。その結果、有害な発言の検出と虚偽情報の検出といった下流タスクでも誤りが生じ、反対意見が誤って有害なものとして検閲されてしまう。
この問題の原因を分析したところ、特定の身元情報や、言及された内容に対する態度の強さが影響していることがわかった。また、引用符の使用も関係していた。
そこで、使用と言及の区別を教えるプロンプト手法を提案し、実験的に検証した。その結果、反対意見の誤分類を大幅に減らすことができた。
この研究は、NLPシステムにおける使用と言及の区別の重要性を示し、その問題に取り組むための具体的な方法を提示している。オンラインコンテンツ管理において、このような言語的な微妙な意味を理解することの必要性を示唆している。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kristina Gli... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01651.pdfDeeper Inquiries