核心概念
簡單、統一的模板不足以訓練出強大的文件資訊提取模型,多樣化、複雜的問答數據集能提升模型效能和穩健性。
論文資訊
標題: “What is the value of {templates}?” Rethinking Document Information Extraction Datasets for LLMs
作者: Ran Zmigrod, Pranav Shetty, Mathieu Sibue, Zhiqiang Ma, Armineh Nourbakhsh, Xiaomo Liu, Manuela Veloso
機構: JPMorgan AI Research
研究目標
本研究旨在探討如何將現有的關鍵資訊提取(KIE)數據集轉換為更適合訓練大型語言模型(LLM)的問答形式,並評估不同模板設計對模型效能的影響。
方法
研究人員從五個現有的 KIE 數據集中,利用超過 100 個不同的模板,創建了一個名為 K2Q 的問答數據集。這些模板涵蓋了多種問題類型,包括提取式問題和是非題,並且可以跨越多個實體和頁面。研究人員比較了七種基準生成模型在 K2Q 上的零樣本提示和微調後的效能,並分析了使用多樣化模板與簡單模板訓練模型的差異。
主要發現
與使用簡單模板相比,使用 K2Q 中多樣化的模板訓練模型,可以顯著提高模型在 ANLS 指標上的效能,相對提升幅度達 40%。
K2Q 的問題在經過 GPT2 微調後,其困惑度(perplexity)和自 BLEU(self-BLEU)分數更接近於人工標註的 VQA 數據集,顯示 K2Q 的問題更具多樣性和真實性。
訓練在 K2Q 上的模型,其生成答案的可解釋性(groundedness)更高,表示模型更能理解問題的上下文,並從文件中提取正確的資訊。
主要結論
本研究強調了數據集質量對於訓練生成模型的重要性,並提出了一種將 KIE 數據集轉換為更豐富、更多樣化問答數據集的方法。實驗結果顯示,使用 K2Q 訓練模型可以提升模型的效能、穩健性和可解釋性。
研究意義
K2Q 數據集的提出,為訓練更強大的文件資訊提取模型提供了新的思路和資源,並促進了學界對生成模型數據質量的關注。
局限與未來研究方向
本研究僅使用了有限的模型和數據集進行實驗,未來可以擴展到更多模型和領域。
K2Q 的模板設計仍需人工參與,未來可以探索利用 LLM 自動生成模板的方法。
未來研究可以探討更廣泛的問題類型、少樣本學習、結合佈局資訊的思維鏈答案生成,以及多輪指令等方向。
統計資料
使用 K2Q 訓練模型,相較於使用簡單模板訓練,ANLS 效能相對提升了 40%。
K2Q 包含超過 30 萬個問題,涵蓋超過 1.2 萬份文件。
K2Q 的問題類型包括提取式問題和是非題。
K2Q 的問題設計考慮了多個實體、跨頁面資訊和歧義性問題等複雜情況。