本論文では、ハンガリーの文学雑誌「Alföld」の段落を手動でアノテーションし、2つのラベルセット(内容ラベルと文脈ラベル)を作成した。これらのラベルセットを、別の文学雑誌「Nagyvilág」に適用できるよう、BERTモデルを訓練した。
内容ラベルは38個のマルチラベルで、文脈ラベルは11個のマルチクラスラベルである。これらのラベルセットは非常に不均衡であるが、ハイパーパラメータチューニングと不均衡に強い損失関数を使うことで、BERTモデルを効果的に訓練できることを示した。
10分割交差検証により、訓練したモデルアンサンブルが「Nagyvilág」のデータに対しても良好な性能を発揮することを確認した。特に内容ラベルについては、ターゲットドメインのテストデータに対して高いROC AUCを達成した。一方、文脈ラベルについては、ターゲットドメインでの性能が低かった。
さらに、ベースライン手法との比較や、ドメイン適応手法の検討、損失関数の検討など、様々な分析を行った。特に、OCR化されたテキストにドメイン適応を行うことで、大幅な性能向上が得られることが分かった。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Tiefere Fragen