本論文では、ラテン語の感情極性検出タスクに取り組むため、2つのデータ拡張手法を提案している。
ポラリティ座標クラスタリング: 感情の極性と強度を表す2次元座標平面上でクラスタリングを行い、自動的にラベル付けを行う手法。
ガウス混合モデルクラスタリング: 事前に用意された少量のデータを使ってガウス混合モデルを学習し、新しいデータに適用してラベル付けを行う手法。
さらに、様々なラテン語大規模言語モデルを用いた深層学習アプローチを検討し、ハイパーパラメータチューニングを行った。その結果、EvaLatin 2024のテストセットにおいて2番目に高いマクロ平均F1スコアを達成した。
ポラリティ座標クラスタリングの出力は中立クラスに偏る一方で、ガウス混合モデルクラスタリングの出力は肯定クラスに偏る傾向がある。これらの違いが、最終的なモデルの性能に影響を与えたと考えられる。
今後の課題としては、自動アノテーションデータの精度向上や、ニューラルネットワークへの統合などが考えられる。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Stephen Both... klo arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07792.pdfSyvällisempiä Kysymyksiä