מושגי ליבה
本文提出了一種稱為「語義運算符」的新型聲明式編程模型,用於對文本數據進行基於 AI 的分析,並介紹了開源查詢引擎 LOTUS 及其優化,以實現高效且可擴展的語義查詢處理。
סטטיסטיקה
語義過濾器、top-k、分組依據和連接運算符的性能提升高達 400 倍。
LOTUS 查詢在每個任務上的準確性都達到或超過了最先進的 AI 管道的準確性,同時執行速度最高可提高 28 倍。
在 FEVER 數據集上進行的事實檢查任務中,與 FacTool 相比,準確性提高了 10.1%,執行時間縮短了 28 倍或 7 倍(分別使用或不使用批處理)。
在 BioDEX 數據集上進行的極端多標籤分類任務中,與樸素算法相比,執行時間縮短了 400 倍。
在搜索和排名應用程序中,與 vanilla 檢索器和重新排序器相比,nDCG@10 提高了 8-180%,執行時間縮短了 1.67-10 倍。
ציטוטים
"The semantic capabilities of language models (LMs) have the potential to enable rich analytics and reasoning over vast knowledge corpora."
"We introduce semantic operators, a declarative programming interface that extends the relational model with composable AI-based operations for bulk semantic queries."
"Overall, LOTUS queries match or exceed the accuracy of state-of-the-art AI pipelines for each task while running up to 28× faster."