Kernekoncepter
대형 언어 모델의 지식 차단 시점은 모델 제작자가 제공한 차단 시점과 실제 차단 시점이 다를 수 있으며, 이는 데이터 중복 제거 과정의 문제와 CommonCrawl 데이터의 시간적 편향 때문이다.
Resumé
이 논문은 대형 언어 모델(LLM)의 지식 차단 시점을 자동으로 결정하는 방법을 제안한다. 모델 제작자들은 종종 LLM의 지식 차단 시점을 명시하지만, 이 정보는 단순화되어 있어 실제 차단 시점과 다를 수 있다.
논문에서는 Wikipedia와 뉴욕타임스 데이터셋을 사용하여 다양한 LLM 모델의 지식 차단 시점을 분석했다. 분석 결과, 모델의 실제 차단 시점이 제작자가 명시한 차단 시점과 크게 다르다는 것을 발견했다.
이러한 차이의 원인을 분석한 결과, 두 가지 주요 요인이 있음을 확인했다. 첫째, 데이터 중복 제거 과정에서 의미적으로 동등하지만 어휘적으로 유사한 문서들이 제거되지 않는 문제가 있다. 둘째, LLM 학습에 사용되는 CommonCrawl 데이터가 실제 수집 시점보다 오래된 데이터를 포함하고 있는 문제가 있다.
이러한 분석 결과는 LLM 사용자들이 모델의 지식 차단 시점을 정확히 이해하고 활용하는 데 도움이 될 것이며, LLM 제작자들이 데이터 전처리 과정을 개선하는 데에도 기여할 것으로 기대된다.
Statistik
2024년 3월 기준 위키피디아 문서 5,000개를 7년간 매월 수집했다.
2016년 1월부터 2020년 7월까지 뉴욕타임스 기사 500개씩을 매월 수집했다.
Citater
"LLM 제작자들은 종종 LLM의 지식 차단 시점을 명시하지만, 이 정보는 단순화되어 있어 실제 차단 시점과 다를 수 있다."
"데이터 중복 제거 과정에서 의미적으로 동등하지만 어휘적으로 유사한 문서들이 제거되지 않는 문제가 있다."
"LLM 학습에 사용되는 CommonCrawl 데이터가 실제 수집 시점보다 오래된 데이터를 포함하고 있는 문제가 있다."