Khái niệm cốt lõi
대규모 언어 모델(LLM)은 전문가 수준의 정확도에는 미치지 못하지만, 비전문가 군중 작업자보다 우수한 성능을 보여 금융 데이터 주석 작업에 효과적으로 활용될 수 있다.
Tóm tắt
이 연구는 대규모 언어 모델(LLM)의 금융 데이터 주석 작업 활용 가능성을 평가합니다. 주요 내용은 다음과 같습니다:
- 금융 관계 추출 작업에서 GPT-4, PaLM 2, MPT Instruct 등 3개의 LLM 모델의 성능을 전문가 및 군중 작업자와 비교 분석했습니다.
- GPT-4와 PaLM 2는 군중 작업자보다 우수한 성능을 보였지만, 전문가 수준에는 미치지 못했습니다. MPT Instruct는 상대적으로 낮은 성능을 보였습니다.
- 프롬프트 설계가 LLM 성능에 큰 영향을 미치는 것으로 나타났습니다. 특히 각 관계 유형에 대한 구체적인 예시를 제공하는 것이 중요했습니다.
- 신뢰성 지수(LLM-RelIndex)를 도입하여 전문가 검토가 필요한 출력을 식별할 수 있었습니다.
- 시간, 비용, 오류 분석을 통해 LLM 기반 주석 작업의 장단점을 제시하고, 도메인 특화 환경에서의 활용을 위한 제언을 제공했습니다.
Thống kê
금융 관계 추출 작업에서 GPT-4와 PaLM 2는 군중 작업자보다 최대 29% 높은 성능을 보였습니다.
MPT Instruct는 5-shot CoT 프롬프트에서 군중 작업자를 능가하는 F1 점수를 달성했습니다.
프롬프트 유형에 따라 LLM 성능이 5-7% 차이를 보였으며, MPT Instruct는 19%의 큰 차이를 보였습니다.
Trích dẫn
"대규모 언어 모델(LLM)은 전문가 수준의 정확도에는 미치지 못하지만, 비전문가 군중 작업자보다 우수한 성능을 보여 금융 데이터 주석 작업에 효과적으로 활용될 수 있다."
"프롬프트 설계가 LLM 성능에 큰 영향을 미치는 것으로 나타났으며, 특히 각 관계 유형에 대한 구체적인 예시를 제공하는 것이 중요했다."
"신뢰성 지수(LLM-RelIndex)를 도입하여 전문가 검토가 필요한 출력을 식별할 수 있었다."