Concepts de base
시계열 데이터 분류 문제를 다중 모달 언어 이해 과제로 재정의하여, 사전 훈련된 언어 모델의 강력한 생성 능력을 활용하여 시계열 데이터와 텍스트 정보를 통합적으로 활용하는 새로운 접근법을 제안한다.
Résumé
이 논문은 시계열 데이터 분류 문제를 다중 모달 언어 이해 과제로 재정의하는 새로운 접근법인 InstructTime을 제안한다. 기존의 시계열 데이터 분류 모델들은 일반적으로 시계열 입력과 one-hot 인코딩된 레이블 간의 매핑을 학습하는 방식을 취해왔다. 그러나 이러한 접근법에는 몇 가지 한계가 있다:
- one-hot 인코딩은 레이블 간 유사성을 반영하지 못한다.
- 도메인 간 지식 전이가 어렵다.
이를 해결하기 위해 InstructTime은 시계열 데이터와 텍스트 설명을 다중 모달 입력으로 활용하여 레이블 텍스트를 생성하는 방식을 제안한다. 구체적으로:
- 시계열 데이터를 이산화하여 언어 모델의 입력으로 활용한다.
- 모달리티 간 정렬을 위한 정렬 프로젝터 모듈을 도입한다.
- 도메인 간 자기회귀 사전 학습과 도메인 특화 fine-tuning을 통해 범용성과 성능을 향상시킨다.
실험 결과, InstructTime은 다양한 벤치마크 데이터셋에서 우수한 성능을 보였으며, 특히 복잡한 다중 레이블 분류 과제에서 두드러진 성과를 나타냈다. 이는 제안된 접근법이 시계열 데이터 분류 문제에 효과적으로 적용될 수 있음을 시사한다.
Stats
시계열 데이터는 길이 L과 채널 수 H로 특징지어진다.
각 도메인 D_i는 M_i개의 시계열 데이터 샘플을 포함한다.
시계열 데이터는 C개의 사전 정의된 클래스로 분류된다.
Citations
"시계열 데이터 분류 (TSC)는 데이터 과학 연구 분야에서 핵심적인 과제이며, 최근 수십 년 동안 상당한 성장을 거두어 왔다."
"대부분의 이러한 방법들은 통일된 학습-분류 프레임워크를 따르고 있다. 구체적으로, 시계열 분류기의 주요 목표는 연속적인 시퀀스 입력과 해당 타겟 레이블 간의 매핑을 학습하는 것이다."