Core Concepts
LLM을 활용하여 기존 데이터셋의 품질을 향상시키는 효율적이고 효과적인 방법을 제안한다.
Abstract
이 연구는 LLM(Large Language Model)을 활용하여 기존 데이터셋의 품질을 향상시키는 효율적이고 효과적인 방법을 제안한다. 기존 Multi-News 데이터셋에는 요약과 관련이 없는 노이즈 문서가 포함되어 있어 데이터셋의 품질을 저하시킨다. 이를 해결하기 위해 연구진은 LLM을 활용하여 각 문서의 관련성을 판단하고, 다수결 투표 방식을 적용하여 노이즈 문서를 제거하는 방법을 제안했다. 이를 통해 MULTI-NEWS+라는 향상된 데이터셋을 구축했다. 실험 결과, MULTI-NEWS+로 학습한 모델이 기존 Multi-News 데이터셋으로 학습한 모델보다 우수한 성능을 보였다. 이는 LLM 기반 데이터 정제 방법이 효과적임을 입증한다. 이 연구는 LLM을 활용하여 기존 데이터셋의 품질을 향상시키는 새로운 접근법을 제시했다는 점에서 의의가 있다.
Stats
다중 문서 요약 데이터셋 Multi-News에는 총 56,216개의 문서 세트가 포함되어 있다.
이 중 27,052개의 문서가 요약과 관련이 없는 노이즈 문서로 판단되었다.
노이즈 문서를 제거한 MULTI-NEWS+에는 총 125,269개의 문서가 포함되어 있다.
Quotes
"LLM을 활용하여 기존 데이터셋의 품질을 향상시키는 효율적이고 효과적인 방법을 제안한다."
"MULTI-NEWS+로 학습한 모델이 기존 Multi-News 데이터셋으로 학습한 모델보다 우수한 성능을 보였다."