Temel Kavramlar
소규모 레이블 데이터와 대량의 무레이블 데이터를 효율적으로 활용하여 법률 문서 분류 성능을 최적화하는 방법을 제안한다.
Özet
이 연구는 자연어 처리(NLP) 분야의 최신 기술인 전이 학습과 데이터 증강 기법을 활용하여 브라질 검찰청(MPPR)의 민원 문서 자동 분류 문제를 해결하고자 한다.
데이터셋 준비 과정:
- MPPR의 2016-2020년 간 492,312건의 민원 데이터를 수집하였다.
- 전문가 팀이 50개 주제 중 130건씩 총 6,500건의 민원 문서를 수동으로 검토 및 검증하였다.
- 검증된 데이터를 훈련, 검증, 테스트 세트로 나누었다.
- 추가로 784,358건의 MPPR 내부 절차 문서를 수집하여 언어 모델 학습에 활용하였다.
특징 추출 실험:
- 일반 및 법률 도메인 특화 버전의 word2vec과 BERT 언어 모델을 사용하였다.
- BERT의 경우 마지막 레이어의 출력을 특징으로 사용하는 것이 가장 효과적이었다.
분류기 실험:
- 로지스틱 회귀, SVM, 랜덤 포레스트, 그래디언트 부스팅 등 다양한 모델을 평가하였다.
- 데이터 증강 기법인 역번역을 적용하여 성능 향상을 확인하였다.
- BERT 모델에 분류기 레이어를 추가하여 fine-tuning한 결과, 다른 모델들을 능가하였다.
최종 실험:
- 무감독 데이터 증강(UDA) 기법을 적용하여 80.7%의 최고 정확도를 달성하였다.
- 이는 수동 분류 정확도 53.27%보다 크게 향상된 결과이다.
- 상위 3개 예측에 대한 정확도는 92%에 달했다.
이 연구는 소규모 데이터셋에서 전이 학습과 데이터 증강 기법의 효과를 입증하였으며, 브라질 법률 분야의 NLP 연구에 기여할 것으로 기대된다.
İstatistikler
수동 분류 정확도: 53.27%
UDA 모델 정확도: 80.7%
UDA 모델 상위 3개 예측 정확도: 92%