核心概念
本研究提出了一個名為 PatentEdits 的資料集和方法,透過將專利新穎性問題轉化為文本蘊含任務,利用自然語言處理技術和大型語言模型來預測專利申請中的哪些部分需要修改才能滿足新穎性要求。
研究目標
本研究旨在探討如何利用自然語言處理技術,特別是文本蘊含分析,來預測專利申請中哪些部分需要修改以符合新穎性要求。
方法
建立一個名為 PatentEdits 的資料集,其中包含了草稿專利、最終核准專利以及審查委員引用的先前技術文件。
開發演算法自動標記專利句子為「保留」、「修改」或「刪除」,並透過人工評估驗證標記的準確性。
訓練語意檢索器,從先前技術文件中找出與草稿專利句子最相關的句子。
將專利新穎性問題轉化為文本蘊含任務,使用預先訓練好的文本蘊含模型(如 RoBERTa-Large-MNLI 和 BART-Large-MNLI)進行微調,以預測專利句子的編輯類型。
主要發現
將專利新穎性問題視為文本蘊含任務,並利用引用的先前技術文件進行分析,可以有效提高預測專利句子編輯類型的準確性。
與僅使用草稿專利文本相比,將最相關的先前技術句子納入模型訓練,並將其視為文本蘊含中的前提,可以顯著提升模型在「保留」類別上的預測表現。
主要結論
文本蘊含分析可以有效應用於專利新穎性評估,特別是透過分析引用的先前技術文件與草稿專利句子之間的語意關係。
PatentEdits 資料集和提出的方法為專利新穎性檢測提供了一個新的研究方向,並為專利撰寫和審查過程提供潛在的自動化工具。
研究意義
本研究為專利新穎性檢測提供了一個新的視角和方法,有助於提高專利審查效率,並為專利申請人提供更精準的修改建議。
局限與未來研究方向
目前 Edit Label 的產生主要依賴自動化方法,未來可以考慮加入專利代理人或審查委員的專業知識進行更精確的標記。
未來研究可以探討如何預測專利申請中新增的請求項,以及如何將請求項之間的相互依存關係納入模型考量。
統計資料
PatentEdits 資料集包含 105,000 份從 2007 年到 2014 年的實用新型專利。
48% 的專利資料包含 1 到 2 個先前技術參考文獻。
使用 BLEU-4 評估句子相似度,並設定 Kept 門檻值為 0.88 時,與人工標記的 Edited vs. Kept 結果最為一致,F1 分數為 0.91 (Edited F1) 和 0.97 (Kept F1)。
最佳句子匹配演算法採用基於 Rouge-L 的 Final-side Greedy 方法,Deleted 門檻值為 0.45,剩餘部分門檻值為 0.3,與人工標記的 F1 分數達到 90.3。