Core Concepts
TartuNLPチームは、ラテン語の歴史的テキストの感情極性検出タスクにおいて、ヒューリスティックスベースのラベル付けと言語モデルベースのラベル付けの2つのアプローチを採用し、パラメータ効率の良い微調整手法を用いて高い成績を収めた。
Abstract
本論文は、TartuNLPチームがEvaLatin 2024の感情極性検出タスクに提出したシステムについて説明している。このタスクでは、ラテン語の歴史的テキストに対して、肯定的、否定的、中立、混合の4つの感情極性ラベルを付与する必要があった。
提案システムは以下の2つのステップから成る:
訓練データの自動ラベル付け
ヒューリスティックスベースのラベル付け: 提供された極性辞書を使ってルールベースでラベル付け
言語モデルベースのラベル付け: GPT-4を使ってラベル付け
パラメータ効率の良い微調整
言語アダプターと課題アダプターを用いた知識転移
英語の感情分析タスクからの cross-lingual 転移と、ラテン語コーパスからの mono-lingual 転移を活用
提案手法の2つの提出結果のうち、GPT-4ラベルを使った方が全体で1位を獲得した。一方、ヒューリスティックスラベルを使った方も2位と健闘した。
アブレーション実験の結果、言語モデルベースのラベル付けデータを使った場合、モノリンガルの知識転移のみでも良好な性能が得られることが分かった。これは、GPT-4によるラベル付けの質が高いことを示唆している。
Stats
ヒューリスティックスベースのラベル付けデータ: 15,396件
GPT-4ベースのラベル付けデータ: 7,281件