Conceptos Básicos
재료 과학 문헌에서 자동화된 정보 추출은 재료의 조성, 구조, 특성, 공정 및 시험 조건을 포함하는 재료 사면체를 완성하는 데 많은 과제를 제시한다.
Resumen
이 논문은 재료 과학 문헌에서 자동화된 정보 추출의 다양한 과제를 조사하고 문서화한다. 특히 텍스트와 표에서 조성 및 특성 추출에 초점을 맞추고 있다.
조성 추출의 경우, 표의 구조와 정보 내용의 변동성, 명목 및 실험 조성의 공존, 다른 문헌에서 추론된 정보, 약어로 표현된 조성 정보 등의 과제가 있다. 텍스트에서는 다양한 조성 표현 형식, 변수 값 추출, 변수를 사용한 조성 표현의 낮은 재현율, 약어와 전체 형태 인식, 불안정하고 관련 없는 조성 추출 등의 과제가 있다.
특성 추출에서는 의미적으로 유사한 행/열 헤더, 동일한 특성에 대한 다양한 측정 조건, 표 캡션/바닥글에 있는 정보, 약어로 표현된 특성, 동일한 약어로 표현된 다른 엔티티 등의 과제가 있다.
공정 및 시험 조건 추출, 구조 정보 추출에서도 유사한 과제가 존재한다. 또한 추출된 정보를 연결하여 재료 사면체를 완성하는 데 어려움이 있다.
이러한 과제를 해결하면 방대한 재료 과학 지식베이스 구축이 가능할 것이다. 이를 위해 저자는 정보 추출에 유리한 표 작성 지침을 제공한다.
Estadísticas
재료 조성이 표와 텍스트에 모두 보고되는 경우는 전체 조성의 33.21%에 불과하다.
재료 조성은 표에 85.92% 보고되지만, 텍스트에는 33.21%만 보고된다.
재료 특성은 82%의 논문에서 표에 보고된다.
원료 물질(precursor)은 80%의 논문에서 텍스트에 보고된다.
Citas
"재료의 행동은 조성, 구조, 특성의 함수이며, 이는 다시 공정 및 시험 조건에 의존한다."
"재료 과학 문헌에 보고된 정보는 다양한 형식(표, 텍스트, 이미지)으로 존재하며, 보고 스타일의 통일성이 부족하여 여러 기계 학습 과제가 발생한다."