Основные понятия
IEPILE는 기존 정보 추출 데이터셋을 수집하고 정제하여 구축한 포괄적인 이중언어(영어 및 중국어) 정보 추출 지침 코퍼스로, 약 0.32B 토큰을 포함하고 있다. 스키마 기반 지침 생성 기법을 도입하여 대규모 코퍼스를 발굴하였으며, 이를 통해 LLaMA, Baichuan, Qwen 등의 언어 모델의 정보 추출 성능, 특히 제로샷 일반화 능력을 향상시킬 수 있음을 보였다.
Аннотация
IEPILE는 기존 정보 추출 데이터셋을 수집하고 정제하여 구축한 대규모 이중언어(영어 및 중국어) 정보 추출 지침 코퍼스이다.
데이터 수집 및 정제 단계:
- 26개의 영어 데이터셋과 7개의 중국어 데이터셋을 수집하여 다양한 도메인을 포괄하고 실용적 요구사항을 충족하고자 하였다.
- 데이터 형식 통일, 중복 제거, 저품질 데이터 제외 등의 표준화 절차를 거쳤다.
스키마 기반 지침 생성 단계:
- 기존 연구에서 발견된 두 가지 문제점을 해결하기 위해 "Hard Negative Schema 구축"과 "Batched Instruction 생성" 기법을 도입하였다.
- Hard Negative Schema 구축: 의미적으로 유사한 부정 스키마를 더 자주 포함하도록 하여 모델의 혼동을 줄였다.
- Batched Instruction 생성: 각 지침에 포함되는 스키마 수를 동적으로 제한하여 학습-평가 간 스키마 수 불일치 문제를 해결하였다.
실험 결과:
- IEPILE를 활용하여 LLaMA, Baichuan, Qwen 모델의 정보 추출 성능, 특히 제로샷 일반화 능력이 향상되었다.
- 스키마 수 불일치와 의미적 유사성으로 인한 혼동이 모델 성능 저하의 주요 원인으로 확인되었다.
Статистика
정보 추출 모델의 성능이 학습-평가 간 스키마 수 불일치에 크게 영향을 받는다.
의미적으로 유사한 스키마가 자주 등장하면 모델의 혼동을 야기하여 성능이 저하된다.
Цитаты
"기존 연구에서는 데이터셋의 전체 스키마 집합을 지침에 포함하는 다소 단순한 전략을 채택하는 경향이 있다. 이는 두 가지 중요한 문제를 야기할 수 있다: 1) 학습-평가 간 스키마 수 불일치, 2) 지침 내 스키마 간 의미적 구분 부족."