toplogo
Logga in

Automatische Standardisierung von Berufsbezeichnungen mit OccCANINE: Ein neues Werkzeug zur Überwindung der HISCO-Barriere


Centrala begrepp
OccCANINE ist ein neues Werkzeug, das es ermöglicht, Berufsbezeichnungen automatisch dem HISCO-Klassifikationssystem zuzuordnen. Das Modell erreicht eine Genauigkeit von über 90 Prozent und macht die zeitaufwendige manuelle Zuordnung überflüssig.
Sammanfattning

Dieser Artikel stellt OccCANINE vor, ein neues Werkzeug zur automatischen Zuordnung von Berufsbezeichnungen zu HISCO-Codes. Das HISCO-System ist der Standard zur Kategorisierung von Berufen, aber die manuelle Zuordnung großer Datensätze ist ein mühsames und zeitaufwendiges Unterfangen.

OccCANINE ist ein auf dem CANINE-Sprachmodell basierendes Transformermodell, das auf 14 Millionen Beobachtungen von Berufsbezeichnungen und HISCO-Codes in 13 Sprachen trainiert wurde. Das Modell erreicht eine Genauigkeit von über 93 Prozent, eine Präzision von über 95 Prozent, eine Trefferquote von über 98 Prozent und einen F1-Wert von 0,96. Es kann Berufsbezeichnungen in Sekunden oder Minuten automatisch zuordnen, was zuvor Tage oder Wochen in Anspruch nahm.

OccCANINE ist ein leistungsfähiges Werkzeug, das den Zugang zu historischen Berufsdaten für Forschungszwecke in Wirtschaft, Wirtschaftsgeschichte und verwandten Disziplinen erheblich erleichtert. Es ist ein wichtiger Schritt, um die "HISCO-Barriere" zu überwinden und die Analyse von Berufsstrukturen zu ermöglichen.

edit_icon

Customize Summary

edit_icon

Rewrite with AI

edit_icon

Generate Citations

translate_icon

Translate Source

visual_icon

Generate MindMap

visit_icon

Visit Source

Statistik
"Selbst ein sehr erfahrener Forscher könnte 10 Sekunden benötigen, um den richtigen HISCO-Code für eine gegebene Berufsbezeichnung zu erkennen und einzugeben. Für 10.000 einzigartige Berufsbezeichnungen würde das bedeuten, dass der Forscher etwa 28 Stunden mit der Codierung verbringen müsste, oder 280 Stunden (11 Tage - ohne Pausen) für 100.000 Beobachtungen." "OccCANINE erreicht eine Genauigkeit von 93,5 Prozent, eine Präzision von 95,5 Prozent, eine Trefferquote von 98,2 Prozent und einen F1-Wert von 0,960 bei Verwendung der optimalen Klassifizierungsschwellenwerte."
Citat
"Selbst ein sehr erfahrener Forscher könnte 10 Sekunden benötigen, um den richtigen HISCO-Code für eine gegebene Berufsbezeichnung zu erkennen und einzugeben." "OccCANINE erreicht eine Genauigkeit von 93,5 Prozent, eine Präzision von 95,5 Prozent, eine Trefferquote von 98,2 Prozent und einen F1-Wert von 0,960 bei Verwendung der optimalen Klassifizierungsschwellenwerte."

Viktiga insikter från

by Chri... arxiv.org 04-03-2024

https://arxiv.org/pdf/2402.13604.pdf
Breaking the HISCO Barrier

Djupare frågor

Wie könnte OccCANINE über die Zuordnung von Berufsbezeichnungen hinaus für andere Klassifizierungsaufgaben in den Sozial- und Geisteswissenschaften eingesetzt werden?

OccCANINE könnte auch für die Klassifizierung anderer Textdaten in den Sozial- und Geisteswissenschaften eingesetzt werden. Zum Beispiel könnte das Modell verwendet werden, um historische Bildungsbeschreibungen in standardisierte Bildungskategorien umzuwandeln. Dies könnte Forschern helfen, Trends in Bildungssystemen im Laufe der Zeit zu analysieren. Ebenso könnte OccCANINE bei der Klassifizierung von historischen Texten zu sozialen Strukturen, politischen Ereignissen oder kulturellen Phänomenen unterstützen. Durch die Anpassung des Modells an spezifische Klassifikationssysteme in verschiedenen Disziplinen könnten Forscher schnell und präzise große Textdatensätze analysieren und wertvolle Erkenntnisse gewinnen.

Welche Auswirkungen könnte eine systematische Verzerrung der Modellgenauigkeit in Bezug auf den sozioökonomischen Status von Berufen haben und wie könnte man damit umgehen?

Eine systematische Verzerrung der Modellgenauigkeit in Bezug auf den sozioökonomischen Status von Berufen könnte zu fehlerhaften Schlussfolgerungen und Verzerrungen in der Analyse führen. Wenn das Modell beispielsweise häufiger seltene oder niedrig entlohnte Berufe falsch klassifiziert, könnten Studien zu sozialen Mobilität oder Einkommensungleichheit beeinträchtigt werden. Um mit dieser Verzerrung umzugehen, könnten Forscher verschiedene Ansätze verfolgen. Eine Möglichkeit wäre die Anpassung des Modells durch Feinabstimmung mit zusätzlichen Trainingsdaten, die eine ausgewogenere Darstellung verschiedener sozioökonomischer Status bieten. Darüber hinaus könnten Sensitivitätsanalysen durchgeführt werden, um die Auswirkungen von Verzerrungen auf die Ergebnisse zu quantifizieren und zu korrigieren.

Wie könnte OccCANINE in Zukunft weiterentwickelt werden, um die Genauigkeit bei seltenen Berufsbezeichnungen zu verbessern?

Um die Genauigkeit bei seltenen Berufsbezeichnungen zu verbessern, könnte OccCANINE durch gezielte Datenerfassung und Feinabstimmung optimiert werden. Dies könnte beinhalten, dass das Modell mit einem größeren Datensatz von seltenen Berufen trainiert wird, um eine bessere Erfassung und Klassifizierung dieser Berufe zu ermöglichen. Darüber hinaus könnten Techniken wie Data Augmentation verwendet werden, um die Vielfalt der seltenen Berufsbeschreibungen im Training zu erhöhen. Eine kontinuierliche Überwachung und Anpassung des Modells an neue Daten und Entwicklungen in den Berufsbezeichnungen könnte ebenfalls dazu beitragen, die Genauigkeit bei seltenen Berufen kontinuierlich zu verbessern.
0
star