이 논문은 재료 과학 문헌에서 자동화된 정보 추출의 다양한 과제를 조사하고 문서화한다. 특히 텍스트와 표에서 조성 및 특성 추출에 초점을 맞추고 있다.
조성 추출의 경우, 표의 구조와 정보 내용의 변동성, 명목 및 실험 조성의 공존, 다른 문헌에서 추론된 정보, 약어로 표현된 조성 정보 등의 과제가 있다. 텍스트에서는 다양한 조성 표현 형식, 변수 값 추출, 변수를 사용한 조성 표현의 낮은 재현율, 약어와 전체 형태 인식, 불안정하고 관련 없는 조성 추출 등의 과제가 있다.
특성 추출에서는 의미적으로 유사한 행/열 헤더, 동일한 특성에 대한 다양한 측정 조건, 표 캡션/바닥글에 있는 정보, 약어로 표현된 특성, 동일한 약어로 표현된 다른 엔티티 등의 과제가 있다.
공정 및 시험 조건 추출, 구조 정보 추출에서도 유사한 과제가 존재한다. 또한 추출된 정보를 연결하여 재료 사면체를 완성하는 데 어려움이 있다.
이러한 과제를 해결하면 방대한 재료 과학 지식베이스 구축이 가능할 것이다. 이를 위해 저자는 정보 추출에 유리한 표 작성 지침을 제공한다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kausik Hira,... at arxiv.org 04-30-2024
https://arxiv.org/pdf/2310.08383.pdfDeeper Inquiries