IEPILE는 기존 정보 추출 데이터셋을 수집하고 정제하여 구축한 포괄적인 이중언어(영어 및 중국어) 정보 추출 지침 코퍼스로, 약 0.32B 토큰을 포함하고 있다. 스키마 기반 지침 생성 기법을 도입하여 대규모 코퍼스를 발굴하였으며, 이를 통해 LLaMA, Baichuan, Qwen 등의 언어 모델의 정보 추출 성능, 특히 제로샷 일반화 능력을 향상시킬 수 있음을 보였다.