toplogo
Logga in

역사적 직업 데이터 자동 표준화를 위한 OccCANINE


Centrala begrepp
OccCANINE은 직업 설명을 HISCO 분류 체계에 자동으로 매핑하는 새로운 도구이다. 이를 통해 이전에 며칠이나 걸렸던 작업을 몇 분 만에 수행할 수 있다.
Sammanfattning

이 논문은 OccCANINE이라는 새로운 도구를 소개한다. OccCANINE은 직업 설명을 HISCO 분류 체계에 자동으로 매핑한다. 직업 설명을 HISCO 코드로 변환하는 수동 작업은 오류가 발생하기 쉽고 시간이 많이 소요된다. 우리는 기존의 언어 모델(CANINE)을 미세 조정하여 이 작업을 자동화했다. 이를 통해 이전에 며칠이나 걸렸던 작업을 몇 분 만에 수행할 수 있다.

OccCANINE은 14개 언어로 된 1,400만 개의 직업 설명과 HISCO 코드 쌍을 사용하여 학습되었다. 이 모델의 정확도, 재현율, 정밀도가 모두 90% 이상이다. OccCANINE은 HISCO 장벽을 허물고 직업 구조 분석을 위한 데이터를 손쉽게 사용할 수 있게 만든다.

edit_icon

Customize Summary

edit_icon

Rewrite with AI

edit_icon

Generate Citations

translate_icon

Translate Source

visual_icon

Generate MindMap

visit_icon

Visit Source

Statistik
직업 설명을 HISCO 코드로 변환하는 작업에 10초가 소요되며, 10,000개의 고유한 직업 설명을 변환하는 데 28시간이 걸린다. OccCANINE은 93.5%의 정확도, 95.5%의 정밀도, 98.2%의 재현율, 0.960의 F1 점수를 달성한다.
Citat
"직업 설명을 HISCO 코드로 변환하는 수동 작업은 오류가 발생하기 쉽고 시간이 많이 소요된다." "OccCANINE은 HISCO 장벽을 허물고 직업 구조 분석을 위한 데이터를 손쉽게 사용할 수 있게 만든다."

Viktiga insikter från

by Chri... arxiv.org 04-03-2024

https://arxiv.org/pdf/2402.13604.pdf
Breaking the HISCO Barrier

Djupare frågor

질문 1

OccCANINE과 같은 자동화 기술은 직업 분류 체계 외에도 다양한 분야에 적용할 수 있습니다. 예를 들어, 역사적인 관습 기록, 교육 설명, 의료 기록, 법률 문서 등과 같이 다양한 분야에서 텍스트 데이터를 분류하고 표준화하는 데 사용할 수 있습니다. 이를 통해 연구자들은 데이터 처리 및 분석에 소요되는 시간과 노력을 크게 줄일 수 있으며, 데이터 품질을 향상시킬 수 있습니다.

질문 2

HISCO 코드 외에도 다른 직업 분류 체계에도 OccCANINE을 적용할 수 있습니다. 이를 위해서는 해당 분류 체계에 맞게 모델을 재조정하고 새로운 학습 데이터를 활용하여 모델을 다시 훈련해야 합니다. OccCANINE은 다양한 분류 체계에 대해 상대적으로 쉽게 적용할 수 있는 유연성을 가지고 있으며, 새로운 분류 체계에 대한 적응력을 보여줄 수 있습니다.

질문 3

직업 분류와 사회경제적 지위 간의 관계를 분석하기 위해서는 먼저 HISCO 코드를 통해 파생된 HISCAM 점수를 사용하여 각 직업의 사회경제적 지위를 나타내야 합니다. 이후 모델의 성능 지표와 사회경제적 지위 간의 관계를 시각화하여 상관 관계를 조사할 수 있습니다. 이를 통해 모델의 성능이 사회경제적 지위에 따라 어떻게 변하는지 분석할 수 있습니다. 이러한 분석을 통해 모델의 성능이 특정 사회경제적 계층에서 어떻게 작용하는지 이해할 수 있습니다.
0
star