Core Concepts
금융 보고서 간 미묘한 의미 변화를 탐지하는 것이 중요하며, 기존 언어 모델로는 이를 효과적으로 구분하기 어렵다. 이를 해결하기 위해 대규모 언어 모델을 활용한 데이터 증강 및 특화된 모델 학습 방법을 제안한다.
Abstract
이 논문은 금융 보고서 간 미묘한 의미 변화를 탐지하는 Financial-STS 태스크를 소개한다. 금융 보고서는 표면적으로 유사해 보이지만 실제로는 중요한 의미 차이가 존재할 수 있다. 이러한 차이를 파악하는 것은 투자자와 규제 기관에게 중요한 정보를 제공할 수 있다.
저자들은 먼저 금융 보고서에서 발견되는 4가지 유형의 의미 변화를 정의한다: 감정 강화, 세부 정보 추가, 계획 실현, 새로운 상황 등장. 이후 대규모 언어 모델을 활용해 이러한 변화 유형을 반영하는 데이터를 생성하고, 이를 활용해 특화된 Triplet 네트워크 모델을 학습한다.
평가 결과, 제안 방법은 기존 STS 태스크 모델 및 일반적인 언어 모델 임베딩 대비 Financial-STS 태스크에서 월등한 성능을 보였다. 이를 통해 금융 도메인의 미묘한 의미 변화를 효과적으로 탐지할 수 있음을 입증했다.
Stats
금융 보고서 간 표면적 유사도가 매우 높음(Jaccard 유사도 75% 이상이 0.963)
긍정 쌍과 부정 쌍 간 의미 변화 정도에 유의미한 차이가 있음(TransRate 점수 차이)
Quotes
"In corporate communication, companies deliberately select nuanced wording in their communications."
"Numerous anecdotal evidence has shown that a company's choice of words can have a huge impact on the company's stock performance."