핵심 개념
단일 언어 및 다국어 트랜스포머 모델을 사용하여 브라질 금융 기업 실적 전화 회의 문서에서 개체명을 효과적으로 인식할 수 있다.
초록
이 연구는 브라질 은행들의 실적 전화 회의 문서 384건을 수집하고, 약한 감독 기법을 활용하여 문장을 주석 처리하여 개체명 인식을 위한 데이터셋을 구축했다. 이후 단일 언어 모델(BERTimbau, PTT5)과 다국어 모델(mBERT, mT5)을 fine-tuning하고 성능을 평가했다.
주요 결과는 다음과 같다:
- BERT 기반 모델이 T5 기반 모델보다 일관적으로 우수한 성능을 보였다.
- 다국어 모델 간 macro F1-score는 유사했지만, BERTimbau가 PTT5보다 우수한 성능을 보였다.
- PTT5와 mT5의 생성 문장은 원문과 매우 유사했지만, 일부 금융 지표 값의 변경 등 중요한 오류가 발견되었다.
- 모델별로 메모리 사용량과 추론 시간에 큰 차이가 있었다. 예를 들어 BERTimbau는 4.5GB 메모리와 2분 소요, PTT5는 13.2GB 메모리와 27분 소요.
- BERT와 T5 기반 모델의 개체명 인식 성능 차이에 대한 통찰을 제공했다.
통계
실적 전화 회의 문서에서 추출한 문장 수는 118,411개이며, 토큰 수는 3,082,526개이다.
데이터셋에는 총 23개의 개체명 라벨이 포함되어 있으며, 가장 많은 라벨은 "PERCENTUAL"(퍼센트)로 26,934개가 있다.
학습 데이터셋에는 LUCRO(이익) 라벨이 752개, RESULTADO(실적) 라벨이 62개 포함되어 있다.
인용구
"단일 언어 모델(BERTimbau)이 다국어 모델(mBERT)보다 우수한 성능을 보였다."
"PTT5와 mT5의 생성 문장은 원문과 매우 유사했지만, 일부 금융 지표 값의 변경 등 중요한 오류가 발견되었다."
"BERTimbau는 4.5GB 메모리와 2분 소요, PTT5는 13.2GB 메모리와 27분 소요로 모델별 리소스 사용량 차이가 컸다."