Core Concepts
절차적 텍스트 이해를 위해 순서 기반 사전 학습 방법을 제안하고, 이를 통해 절차적 텍스트 이해 성능을 향상시킬 수 있음을 보여줌.
Abstract
이 논문에서는 절차적 텍스트 이해를 향상시키기 위한 순서 기반 사전 학습 방법을 제안한다. 절차적 텍스트는 순차적 지침으로 구성되어 있어 문맥 내 엔티티의 속성 변화로 인해 이해가 어렵다. 저자들은 레시피를 중심으로 연구를 진행했으며, 레시피의 순서를 감독 신호로 활용했다.
제안된 사전 학습 방법은 다음과 같다:
순열 분류(Permutation Classification): 레시피 순서를 섞어 순열 분류 문제를 해결하도록 학습
임베딩 회귀(Embedding Regression): 순열을 임베딩으로 변환하고 회귀 문제를 해결하도록 학습
Skip-Clip: 주어진 문맥에서 가까운 단계와 먼 단계의 표현을 구분하도록 학습
이러한 방법들은 레시피 도메인의 NPN-Cooking 데이터셋과 범용 도메인의 ProPara 데이터셋에서 엔티티 추적 과제 성능을 향상시켰다. 특히 Permutation Classification과 Embedding Regression 방법이 ProPara 데이터셋에서 우수한 성능을 보였다.
Stats
레시피 데이터셋에는 총 2,885,755개의 레시피가 포함되어 있으며, 이는 334,664,989개의 단계와 132,014,055개의 재료로 구성되어 있다.
NPN-Cooking 데이터셋에는 65,816개의 학습 데이터, 175개의 개발 데이터, 700개의 평가 데이터가 포함되어 있다.
ProPara 데이터셋에는 488개의 절차 설명문이 포함되어 있으며, 이에 대한 81,000개의 엔티티 상태 및 위치 변화 주석이 제공된다.
Quotes
"절차적 텍스트는 순차적 지침으로 구성되어 있어 문맥 내 엔티티의 속성 변화로 인해 이해가 어렵다."
"저자들은 레시피를 중심으로 연구를 진행했으며, 레시피의 순서를 감독 신호로 활용했다."
"제안된 사전 학습 방법은 레시피 도메인의 NPN-Cooking 데이터셋과 범용 도메인의 ProPara 데이터셋에서 엔티티 추적 과제 성능을 향상시켰다."