핵심 개념
타임라인 구축을 위한 새로운 평가 데이터 세트인 TimeSET을 개발하고, LLM을 사용한 공식 비교 및 기존 데이터 세트에서의 벤치마킹 실험을 통해 모델의 성능을 평가하고 개선 방향을 모색한다.
초록
타임라인 구축에 대한 새로운 평가 데이터 세트인 TimeSET을 소개하고, LLM을 사용한 다양한 공식 비교와 벤치마킹 실험을 진행한다.
다양한 데이터 세트와 모델을 활용하여 타임라인 구축 시스템의 성능을 평가하고 개선 방향을 모색한다.
Abstract
타임라인 구축에 필요한 새로운 평가 데이터 세트인 TimeSET을 소개한다.
TimeSET은 단일 문서 타임라인 주석을 포함하며, 중요한 이벤트 선택과 부분적 순서 주석을 특징으로 한다.
Introduction
타임라인 구축은 텍스트 입력을 기반으로 이벤트를 시간순으로 구조화하는 작업이다.
실용적인 응용 프로그램에 영향을 미치며, 텍스트 분석이나 스크립트 유도와 같은 분야에서 중요하다.
Formulation Comparison
NLI, Pairwise, MRC, Timeline과 같은 다양한 공식을 사용하여 TimeSET을 평가하고 모델의 성능을 비교한다.
Flan-T5와 Llama 2와 같은 다양한 LLM을 사용하여 공식 비교 실험을 수행한다.
Benchmarking on Existing Datasets
기존 이벤트 시간 순서 데이터 세트에서 LLM의 성능을 벤치마킹하여 모델의 능력을 평가한다.
TemporalNLI, MATRES, TDDiscourse, TORQUE와 같은 데이터 세트를 사용하여 실험을 진행한다.
통계
이벤트 시간 순서 데이터 세트를 사용하여 LLM의 성능을 평가한다.
인용구
"타임라인 구축을 위한 새로운 평가 데이터 세트인 TimeSET을 소개한다."
"다양한 데이터 세트와 모델을 활용하여 타임라인 구축 시스템의 성능을 평가하고 개선 방향을 모색한다."