본 연구는 금융 산업에서 결제 당사자의 위치를 파악하는 것이 중요한 과제임을 설명한다. 이를 위해 주소 구문 분석을 통해 주소 필드(도로명, 우편번호, 도시 등)를 추출하는 것이 필요하다.
데이터 측면에서 연구진은 실제 결제 데이터의 한계와 노이즈를 반영한 새로운 데이터셋을 제공한다. 이 데이터셋은 기존 합성 데이터의 한계를 극복하고 실제 운영 환경과 유사한 데이터를 제공한다.
다양한 접근법을 실험적으로 분석한 결과, 잘 fine-tuning된 Transformer 모델이 가장 우수한 성능을 보였다. 특히 XLM-RoBERTa-Large 모델이 합성 데이터의 zero-shot 성능과 실제 운영 데이터에서 가장 좋은 결과를 보였다.
한편 생성 언어 모델(LLM)도 단순한 prompt engineering으로도 상당한 성능을 보였으며, 이에 대한 추가 연구가 필요할 것으로 보인다. 연구진은 최종 모델을 오픈소스로 공개할 예정이다.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Haitham Hamm... om arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05632.pdfDiepere vragen