Khái niệm cốt lõi
IEPILE는 기존 정보 추출 데이터셋을 수집하고 정제하여 구축한 포괄적인 이중언어(영어 및 중국어) 정보 추출 지침 코퍼스로, 약 0.32B 토큰을 포함하고 있다. 스키마 기반 지침 생성 기법을 도입하여 대규모 코퍼스를 발굴하였으며, 이를 통해 LLaMA, Baichuan, Qwen 등의 언어 모델의 정보 추출 성능, 특히 제로샷 일반화 능력을 향상시킬 수 있음을 보였다.
Tóm tắt
IEPILE는 기존 정보 추출 데이터셋을 수집하고 정제하여 구축한 대규모 이중언어(영어 및 중국어) 정보 추출 지침 코퍼스이다.
데이터 수집 및 정제 단계:
- 26개의 영어 데이터셋과 7개의 중국어 데이터셋을 수집하여 다양한 도메인을 포괄하고 실용적 요구사항을 충족하고자 하였다.
- 데이터 형식 통일, 중복 제거, 저품질 데이터 제외 등의 표준화 절차를 거쳤다.
스키마 기반 지침 생성 단계:
- 기존 연구에서 발견된 두 가지 문제점을 해결하기 위해 "Hard Negative Schema 구축"과 "Batched Instruction 생성" 기법을 도입하였다.
- Hard Negative Schema 구축: 의미적으로 유사한 부정 스키마를 더 자주 포함하도록 하여 모델의 혼동을 줄였다.
- Batched Instruction 생성: 각 지침에 포함되는 스키마 수를 동적으로 제한하여 학습-평가 간 스키마 수 불일치 문제를 해결하였다.
실험 결과:
- IEPILE를 활용하여 LLaMA, Baichuan, Qwen 모델의 정보 추출 성능, 특히 제로샷 일반화 능력이 향상되었다.
- 스키마 수 불일치와 의미적 유사성으로 인한 혼동이 모델 성능 저하의 주요 원인으로 확인되었다.
Thống kê
정보 추출 모델의 성능이 학습-평가 간 스키마 수 불일치에 크게 영향을 받는다.
의미적으로 유사한 스키마가 자주 등장하면 모델의 혼동을 야기하여 성능이 저하된다.
Trích dẫn
"기존 연구에서는 데이터셋의 전체 스키마 집합을 지침에 포함하는 다소 단순한 전략을 채택하는 경향이 있다. 이는 두 가지 중요한 문제를 야기할 수 있다: 1) 학습-평가 간 스키마 수 불일치, 2) 지침 내 스키마 간 의미적 구분 부족."