核心概念
Collage 是一款針對科學類 PDF 文件資訊提取任務設計的快速原型設計工具,它允許用戶可視化和評估不同模型的結果,並通過提供對處理過程中間狀態的精細視圖來幫助理解和調試模型。
簡介
自然語言處理(NLP)領域近年來發展迅速,出現許多針對特定領域的科學文獻資訊提取工具,以及多模態預訓練 Transformer 模型。然而,這些模型的評估和應用對非 NLP 專家來說仍有難度,因為它們接受不同的輸入格式,通常是黑盒子,難以理解處理失敗的原因,而且很少處理最常見的科學出版物格式——PDF 文件。
Collage 的設計目標
Collage 旨在解決 NLP 工具開發者和使用者之間的介面問題,其設計基於對材料科學、法律和政策等多個領域的 15 位專業人士的訪談,特別關注材料科學領域的 9 位科學家對文獻審查過程的描述。Collage 的設計目標包括:
滿足不同的資訊需求: 科學家在閱讀和評估論文時,即使在非常密切相關的子領域,也會有不同的關注點。Collage 允許使用者評估多種不同的模型,以提取他們感興趣的內容類型,並具有良好的可擴展性,方便添加新的模型。
處理表格資訊: 許多受訪者嚴重依賴表格中提供的資訊,因此 Collage 支援多模態模型,可以處理文字和圖像。
處理舊文件: 受訪者指出,他們經常需要處理時間跨度很大的文件,包括 OCR 準確性低、包含掃描雜訊和佈局不規範的舊文件。Collage 提供了一個介面,允許使用者檢查處理的中間階段,以便更好地理解模型可能在哪裡出現錯誤,以及後續開發應該針對哪些方面進行改進。
Collage 的系統架構
Collage 的系統架構由三個部分組成:
PDF 表示: 使用 PaperMage 庫解析 PDF 內容,並將其轉換為易於下游使用的格式。
模型和軟體介面: 定義了通用的軟體介面,簡化了資訊提取工具的實現過程,並抽象了處理 PDF 內容和視覺化呈現結果的細節。Collage 目前支援三種介面:
標記分類介面: 適用於產生文字跨度標註的模型,例如命名實體識別(NER)或事件提取模型。
文字生成介面: 適用於基於大型語言模型(LLM)的文字到文字預測任務。
圖像預測介面: 適用於解析圖像的模型,例如表格解析模型。
視覺化前端: 使用 Streamlit 構建了一個互動式工具,允許使用者上傳 PDF 文件、定義處理流程,並在每個階段檢查處理結果。
Collage 的評估
Collage 的評估基於兩個方面:
滿足訪談中提出的需求: Collage 的設計旨在解決訪談中提出的問題,包括支援多種模型、處理表格資訊和處理舊文件。
與現有相關工具的比較: Collage 結合了科學類 PDF 閱讀輔助工具和資訊提取工具的優點,提供了一個模型無關的平台,允許使用者在同一個介面中評估和比較不同的模型。
結論
Collage 是一個針對科學類 PDF 文件資訊提取任務設計的快速原型設計工具,它允許使用者可視化和評估不同模型的結果,並通過提供對處理過程中間狀態的精細視圖來幫助理解和調試模型。