본 연구 논문에서는 대규모 고품질 합성 쿼리-후보 사례 쌍을 구축하여 법률 사례 검색(LCR)을 향상시키는 자동화된 방법을 제시합니다. 저자는 실제 법률 사례 검색 시스템이 직면하는 두 가지 주요 과제, 즉 비대칭 검색과 제한된 데이터 규모를 해결하는 데 중점을 둡니다.
기존 LCR 시스템은 주로 긴 쿼리를 사용하는 사례 간 검색에 중점을 두었지만, 실제 사용자 쿼리는 핵심 사건을 설명하는 몇 문장으로만 구성되는 경우가 많습니다. 이러한 불일치로 인해 성능이 저하됩니다.
법률 데이터 주석은 고도로 숙련되고 경험이 풍부한 주석자가 필요하기 때문에 시간과 노력이 많이 소요됩니다. 기존 LCR 데이터 세트에는 수백 개의 쿼리만 포함되어 있어 데이터에 의존하는 신경망 모델의 학습 요구 사항을 충족하기에 충분하지 않습니다.
이러한 문제를 해결하기 위해 본 논문에서는 대규모 생성 언어 모델을 사용하여 사례 정보에서 핵심 사건을 추출하고 개인 정보를 익명화하여 간결하고 일관성 있는 쿼리를 자동으로 생성하는 방법을 제안합니다. 또한 데이터 다양성을 개선하고 핵심 사건이 완전히 일치하지 않더라도 모델이 관련 사례를 검색할 수 있도록 지식 기반 데이터 증강 전략을 사용합니다.
본 논문에서는 제안된 방법을 사용하여 100,000개 이상의 쿼리-후보 사례 쌍을 포함하는 현재까지 가장 큰 LCR 데이터 세트인 LEAD를 구축했습니다. 이는 기존 LCR 데이터 세트보다 수백 배 더 큰 규모입니다.
실험 결과, LEAD로 학습된 모델은 두 개의 널리 사용되는 LCR 벤치마크에서 최첨단 성능을 달성했습니다. 또한 제안된 데이터 생성 프레임워크는 민사 사례 검색에도 쉽게 적용할 수 있으며 만족스러운 성능을 달성했습니다.
본 논문에서 제안된 자동화된 방법은 고품질의 비대칭 LCR 데이터 세트를 효율적으로 구축하여 LCR 시스템의 성능을 향상시키는 데 크게 기여할 수 있습니다. 또한, 본 연구에서 구축된 대규모 데이터 세트는 향후 LCR 연구 발전에 귀중한 자원이 될 것으로 기대됩니다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Cheng Gao, C... at arxiv.org 10-10-2024
https://arxiv.org/pdf/2410.06581.pdfDeeper Inquiries