Core Concepts
법률 전문가들이 법률 판결문을 탐색하여 쿼리와 직접 관련된 정보를 찾는 것은 어려운 과제이다. 이 연구는 법률 판결문에서 쿼리와 관련된 단락을 효율적으로 추출하는 방법을 제안한다.
Abstract
이 연구는 법률 판결문에서 쿼리와 관련된 단락을 추출하는 과제를 다룬다. 법률 분야는 복잡한 어휘와 전문 용어로 인해 자동화된 시스템에 큰 도전과제를 제시한다. 또한 법률 판례의 지속적인 발전으로 인해 새로운 법적 개념과 원칙이 끊임없이 등장하므로 유연하고 적응적인 접근이 필요하다.
이를 위해 연구진은 유럽인권재판소(ECtHR)의 판결문과 사례법 가이드를 활용하여 데이터셋을 구축했다. 사례법 가이드의 섹션 헤더를 쿼리로 사용하고, 각 섹션에 포함된 판결문 내 인용된 단락을 관련 단락으로 식별했다. 이를 통해 법률 전문가들이 실제 사용하는 쿼리와 관련 단락을 포착할 수 있었다.
연구진은 다양한 검색 모델의 성능을 평가했다. 제로샷 평가에서는 COLBERT가 가장 우수한 성능을 보였지만, 파인튜닝 시 크로스 인코더 모델이 더 나은 성과를 보였다. 이는 법률 도메인 사전 학습이 코퍼스 측면의 분포 변화를 완화하지만, 여전히 새로운 쿼리에 대한 적응에 어려움이 있음을 시사한다.
또한 연구진은 파라미터 효율적 파인튜닝(PEFT) 기법을 평가했다. 실험 결과, PEFT 기법은 전체 파인튜닝과 유사한 성능을 보였으며, 모델 아키텍처와 사전 학습에 따라 최적의 PEFT 기법이 달라짐을 확인했다. 이는 저 컴퓨팅 환경에서도 법률 정보 검색 모델을 효과적으로 활용할 수 있음을 시사한다.
Stats
법률 판결문의 단락 수는 21개에서 942개까지 다양하며, 평균 102.78개이다.
각 쿼리-판결문 쌍에서 관련 단락의 비율은 0.10%에서 15%까지 다양하며, 평균 약 1.95%이다.
쿼리의 평균 길이는 36 토큰이며, 단락의 평균 길이는 135 토큰이다.