本文提出了一個名為GraphRevisedIE的新框架,用於解決視覺豐富文件(VRD)中的關鍵信息提取(KIE)問題。該框架能夠有效地嵌入文本、視覺和佈局特徵,並利用圖修訂和圖卷積技術來豐富多模態嵌入,以應對VRD中的語義歧義。
具體來說,GraphRevisedIE包含三個模塊:多模態特徵嵌入模塊、圖模塊和解碼模塊。多模態特徵嵌入模塊分別嵌入文本、視覺和佈局特徵,並將它們融合在一起。圖模塊利用圖修訂和圖卷積技術,從全局上下文中豐富多模態特徵嵌入。最後,解碼模塊使用BiLSTM-CRF實現最終的實體標註。
實驗結果表明,GraphRevisedIE在多個公開數據集上都取得了優秀的性能,並且在參數量和訓練成本方面都優於現有的預訓練模型。此外,作者還發布了一個包含真實和合成商業執照的數據集,以促進文件KIE研究的發展。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Panfeng Cao,... at arxiv.org 10-03-2024
https://arxiv.org/pdf/2410.01160.pdfDeeper Inquiries