핵심 개념
WikiFactDiff는 2021년 1월 4일과 2023년 2월 27일 사이의 사실 지식 변화를 나타내는 327,000개의 업데이트로 구성된 대규모 데이터셋이다. 이는 새로운 사실 삽입, 기존 사실 폐기, 사실 대체 등 다양한 업데이트 시나리오를 포함하며, 언어 모델의 시간 종속적 특성을 해결하는 데 활용될 수 있다.
초록
WikiFactDiff는 2021년 1월 4일과 2023년 2월 27일 사이의 Wikidata 지식베이스 변화를 반영하는 327,000개의 사실 업데이트로 구성된다. 각 업데이트는 "새로운", "폐기된", "고정된" 세 가지 범주 중 하나로 분류된다.
새로운 사실 삽입, 기존 사실 폐기, 사실 대체 등 다양한 업데이트 시나리오가 포함되어 있다. 이는 기존 데이터셋과 달리 현실적인 업데이트 상황을 반영한다.
각 사실은 주어-관계-목적어 트리플로 표현되며, 자연어 문장으로 표현된 템플릿과 클로즈 테스트도 제공된다. 이를 통해 업데이트 알고리즘의 적용과 평가가 가능하다.
또한 업데이트된 사실과 관련된 유사 사실들도 함께 제공되어, 업데이트로 인한 부작용(bleedover) 측정이 가능하다.
통계
일본의 인구는 125.96M에서 125.44M로 감소했다.
크리스티아누 호날두는 포르투갈 국가대표팀의 새로운 멤버가 되었다.
도널드 트럼프는 더 이상 미국의 정부 수반이 아니며, 조 바이든이 새로운 정부 수반이 되었다.
ChatGPT는 2022년 11월 30일에 새로 등장한 언어 모델이다.
인용구
"새로운 사실 삽입, 기존 사실 폐기, 사실 대체 등 다양한 업데이트 시나리오가 포함되어 있다."
"각 사실은 주어-관계-목적어 트리플로 표현되며, 자연어 문장으로 표현된 템플릿과 클로즈 테스트도 제공된다."
"또한 업데이트된 사실과 관련된 유사 사실들도 함께 제공되어, 업데이트로 인한 부작용(bleedover) 측정이 가능하다."