핵심 개념
皮肉検出モデルの一般化可能性を、ラベルの出所、ドメイン、スタイルの違いを考慮して検証した。一般化性能は、データ収集方法に大きく依存することが示された。
초록
本研究では、皮肉検出モデルの一般化可能性を検証するため、4つの皮肉データセットを用いて実験を行った。
- データセットの違い:ラベルの出所(著者vs第三者)、ドメイン(SNSvsオフラインの会話)、スタイル(攻撃的vs冗談めかした)
- 内部データセット予測: 全モデルで、第三者ラベルのデータセットの方が著者ラベルのデータセットよりも高パフォーマンス
- cross-データセット予測: ほとんどのモデルが他のデータセットに一般化できず、一つのデータセットでは様々な皮肉のスタイルや領域をカバーできないことが示唆された
- 新しく公開したCSCデータセットを使ったモデルが、他のデータセットへの一般化性が最も高かった
- 事後分析の結果、データセットごとに皮肉の言語的特徴が異なることが明らかになった
통계
皮肉の検出性能は、データセットのサイズや注釈の質だけでなく、データ収集方法にも大きく依存する
著者ラベルのデータセットでは、モデルの性能が大幅に低下する
인용구
"皮肉は傷つけたり、批判したりするために使われることもあるが、冗談めかしたり、ユーモアを含んでいることもある。"
"様々なドメインやスタイルの皮肉が存在することを考慮に入れる必要がある。"