本論文では、OccCANINEという新しいツールを紹介する。OccCANINEは、職業説明文をHISCO分類コードに自動的に変換することができる。従来の手作業による職業分類作業は、エラーが生じやすく、退屈で時間がかかる作業であった。
OccCANINEは、既存の言語モデル(CANINE)をファインチューニングすることで、この作業を自動化する。14言語、22のデータソースから提供された1400万件の職業説明文とHISCOコードのペアを使って学習させた結果、93.5%の正確度、95.5%の精度、98.2%のRecall、F1スコア0.960を達成した。
OccCANINEは、職業分類作業の時間とコストを大幅に削減し、より広範な職業データ分析を可能にする。これにより、経済学、経済史、関連分野の研究に新たな洞察をもたらすことが期待される。
本論文では、OccCANINEのアーキテクチャ、学習データ、学習手順について詳述する。また、性能評価の結果も示す。さらに、OccCANINEの使用方法や応用例についても提案する。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
استفسارات أعمق