이 논문은 대형 언어 모델(LLM)의 지식 차단 시점을 자동으로 결정하는 방법을 제안한다. 모델 제작자들은 종종 LLM의 지식 차단 시점을 명시하지만, 이 정보는 단순화되어 있어 실제 차단 시점과 다를 수 있다.
논문에서는 Wikipedia와 뉴욕타임스 데이터셋을 사용하여 다양한 LLM 모델의 지식 차단 시점을 분석했다. 분석 결과, 모델의 실제 차단 시점이 제작자가 명시한 차단 시점과 크게 다르다는 것을 발견했다.
이러한 차이의 원인을 분석한 결과, 두 가지 주요 요인이 있음을 확인했다. 첫째, 데이터 중복 제거 과정에서 의미적으로 동등하지만 어휘적으로 유사한 문서들이 제거되지 않는 문제가 있다. 둘째, LLM 학습에 사용되는 CommonCrawl 데이터가 실제 수집 시점보다 오래된 데이터를 포함하고 있는 문제가 있다.
이러한 분석 결과는 LLM 사용자들이 모델의 지식 차단 시점을 정확히 이해하고 활용하는 데 도움이 될 것이며, LLM 제작자들이 데이터 전처리 과정을 개선하는 데에도 기여할 것으로 기대된다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询