本研究論文介紹了一種名為 CLaSP(對比語言和信號預訓練)的基礎模型,該模型能夠使用自然語言描述作為查詢來搜索時間序列信號。
在工業機械領域,使用感測器數據獲取的時間序列信號來診斷機器狀況至關重要。數據科學家經常需要從數據集中識別具有特定特徵的信號,以便設計用於診斷機器狀況的算法。一種基本查詢是“我的數據集中是否有此模式的示例?” 傳統的基於草圖查詢 (QbS) 或基於示例查詢 (QbE) 的時間序列搜索技術無法滿足使用自然語言描述進行搜索的需求。
CLaSP 模型採用對比學習方法,利用包含時間序列信號及其相應自然語言描述的數據集,並利用大型語言模型 (LLM) 中嵌入的常識概念。
模型的輸入是時間序列信號數據及其相應的標籤(註釋),分別輸入到時間序列信號編碼器(信號編碼器)和文本編碼器中。每個編碼器的輸出特徵被線性投影以形成聯合多模態空間,該空間使用對比學習來學習批次中時間序列信號數據和註釋對之間的(不)相似性。
實驗結果表明,CLaSP 模型能夠實現時間序列信號數據的自然語言搜索,並且可以準確地學習信號數據發生變化的點。
與以往需要預先設計時間序列信號特徵類別、量化公式和同義詞詞典的方法相比,CLaSP 模型具有以下優勢:
CLaSP 模型可以應用於以下方面:
CLaSP 模型提供了一種新穎的基於自然語言的時間序列信號搜索技術,克服了傳統方法的局限性,為時間序列數據分析和應用開闢了新的可能性。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor