Core Concepts
대규모 언어 모델의 프롬프팅 기술을 활용하여 법률 문서 검색 시스템의 정확도를 크게 향상시킬 수 있다.
Abstract
이 연구는 법률 문서 검색 문제를 해결하기 위해 3단계 검색 파이프라인을 제안한다:
사전 순위화 단계: BM25 모델을 사용하여 빠르고 높은 재현율을 달성한다.
재순위화 단계: BERT 기반 다중 작업 학습 모델을 사용하여 의미적 유사성을 고려한다.
프롬프팅 기반 재순위화 단계: 대규모 언어 모델(LLM)의 프롬프팅 기술을 활용하여 논리적 추론 능력을 향상시킨다.
실험 결과, 제안된 파이프라인은 COLIEE 2023 데이터셋에서 기존 방법보다 우수한 성능을 보였다. 특히 프롬프팅 기반 재순위화 단계가 정확도 향상에 크게 기여했다. 그러나 여전히 복잡한 법적 상황에 대한 처리 등 개선의 여지가 있음을 확인했다.
Stats
법률 문서 데이터셋에는 평균 109개의 일본어 토큰과 100개의 영어 토큰이 포함되어 있다.
질의 데이터셋에는 평균 62.21개의 토큰이 포함되어 있다.
Quotes
"대규모 언어 모델과 프롬프팅 기술을 현명하게 활용하면 검색 과정의 정확도와 재현율을 크게 향상시킬 수 있다."
"복잡한 법적 상황에 대한 처리 등 개선의 여지가 여전히 존재한다."