核心概念
대형 언어 모델은 근거 없는 정보를 생성할 수 있지만, 도메인 특화 검색 보강 생성 기법을 통해 이를 상당 부분 개선할 수 있다. 그러나 여전히 근거 선택, 근거 관련성, 근거 귀속 등의 과제가 남아 있다.
摘要
이 연구는 안과학 분야의 약 70,000개 문서로 구성된 도메인 특화 검색 보강 생성(RAG) 파이프라인을 개발하고, 100개의 소비자 건강 질문에 대한 대형 언어 모델의 응답을 체계적으로 평가했다.
주요 결과는 다음과 같다:
- 대형 언어 모델 단독으로는 응답의 45.3%가 근거 없는 정보를 포함했지만, RAG를 적용하면 이 비율이 18.8%로 크게 감소했다.
- RAG를 통해 검색된 상위 10개 문서 중 62.5%만이 대형 언어 모델의 응답에 반영되었고, 평균 순위는 4.9였다. 이는 대형 언어 모델이 RAG가 제공한 최상위 문서를 모두 활용하지 않는다는 것을 보여준다.
- RAG 적용 시 근거 귀속 점수는 향상되었지만(1.85 → 2.49), 응답의 정확성(3.52 → 3.23)과 완성도(3.47 → 3.27)는 다소 감소했다. 이는 RAG가 검색한 일부 관련성 낮은 문서로 인해 발생한 것으로 보인다.
이 연구 결과는 대형 언어 모델의 근거 생성 문제와 RAG 기법의 한계를 보여주며, 도메인 특화 언어 모델 및 RAG 기술의 추가 개발이 필요함을 시사한다.
统计
대형 언어 모델 단독 응답에서 20.6%의 참조문헌이 정확했고, 34.1%가 사소한 오류, 45.3%가 근거 없는 정보였다.
RAG 적용 시 참조문헌의 54.5%가 정확했고, 26.7%가 사소한 오류, 18.8%가 근거 없는 정보였다.
RAG가 검색한 상위 10개 문서 중 62.5%만이 대형 언어 모델의 응답에 반영되었고, 평균 순위는 4.9였다.
RAG 적용 시 근거 귀속 점수는 1.85에서 2.49로 향상되었지만, 응답의 정확성은 3.52에서 3.23으로, 완성도는 3.47에서 3.27로 다소 감소했다.
引用
"대형 언어 모델은 근거 없는 정보를 생성할 수 있지만, RAG를 통해 이를 상당 부분 개선할 수 있다."
"RAG가 검색한 상위 문서 중 일부만이 대형 언어 모델의 응답에 반영되어, 여전히 근거 없는 정보가 남아있다."
"RAG 적용 시 근거 귀속은 향상되었지만, 응답의 정확성과 완성도가 다소 감소했다."