Core Concepts
이 연구는 이력서 문서에서 구조화된 정보를 효율적으로 추출하기 위해 다중 세분화 다중 모달 사전 학습 모델을 제안합니다.
Abstract
이 연구는 효율적인 이력서 이해를 위한 새로운 모델 ERU를 제안합니다.
먼저 텍스트, 시각적, 레이아웃 정보를 통합한 레이아웃 인식 다중 모달 융합 트랜스포머를 사용하여 이력서의 세그먼트를 인코딩합니다.
그런 다음 대규모 레이블이 없는 이력서 데이터를 사용하여 마스크 언어 모델, 시각적 위치 정렬, 마스크 세그먼트 예측의 세 가지 자기 지도 학습 작업으로 모델을 사전 학습합니다.
마지막으로 레이블이 지정된 데이터셋을 사용하여 다중 세분화 시퀀스 레이블링 작업으로 모델을 미세 조정합니다.
실제 데이터셋에 대한 광범위한 실험은 ERU의 효과를 명확하게 보여줍니다.
Stats
이력서 문서의 평균 세그먼트 수는 88.90개입니다.
이력서 문서의 평균 세그먼트 길이는 18.94단어입니다.
이력서 문서의 평균 페이지 수는 1.95페이지입니다.
Quotes
"최근 다중 모달 문서 이해를 위한 사전 학습 모델 활용이 널리 채택되고 있습니다."
"그러나 이러한 연구는 이력서 문서의 계층적 관계를 효과적으로 처리하지 못하고 있습니다."