toplogo
登入

PatentEdits:將專利新穎性視為文本蘊含問題


核心概念
本研究提出了一個名為 PatentEdits 的資料集和方法,透過將專利新穎性問題轉化為文本蘊含任務,利用自然語言處理技術和大型語言模型來預測專利申請中的哪些部分需要修改才能滿足新穎性要求。
摘要
edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

研究目標 本研究旨在探討如何利用自然語言處理技術,特別是文本蘊含分析,來預測專利申請中哪些部分需要修改以符合新穎性要求。 方法 建立一個名為 PatentEdits 的資料集,其中包含了草稿專利、最終核准專利以及審查委員引用的先前技術文件。 開發演算法自動標記專利句子為「保留」、「修改」或「刪除」,並透過人工評估驗證標記的準確性。 訓練語意檢索器,從先前技術文件中找出與草稿專利句子最相關的句子。 將專利新穎性問題轉化為文本蘊含任務,使用預先訓練好的文本蘊含模型(如 RoBERTa-Large-MNLI 和 BART-Large-MNLI)進行微調,以預測專利句子的編輯類型。 主要發現 將專利新穎性問題視為文本蘊含任務,並利用引用的先前技術文件進行分析,可以有效提高預測專利句子編輯類型的準確性。 與僅使用草稿專利文本相比,將最相關的先前技術句子納入模型訓練,並將其視為文本蘊含中的前提,可以顯著提升模型在「保留」類別上的預測表現。 主要結論 文本蘊含分析可以有效應用於專利新穎性評估,特別是透過分析引用的先前技術文件與草稿專利句子之間的語意關係。 PatentEdits 資料集和提出的方法為專利新穎性檢測提供了一個新的研究方向,並為專利撰寫和審查過程提供潛在的自動化工具。 研究意義 本研究為專利新穎性檢測提供了一個新的視角和方法,有助於提高專利審查效率,並為專利申請人提供更精準的修改建議。 局限與未來研究方向 目前 Edit Label 的產生主要依賴自動化方法,未來可以考慮加入專利代理人或審查委員的專業知識進行更精確的標記。 未來研究可以探討如何預測專利申請中新增的請求項,以及如何將請求項之間的相互依存關係納入模型考量。
統計資料
PatentEdits 資料集包含 105,000 份從 2007 年到 2014 年的實用新型專利。 48% 的專利資料包含 1 到 2 個先前技術參考文獻。 使用 BLEU-4 評估句子相似度,並設定 Kept 門檻值為 0.88 時,與人工標記的 Edited vs. Kept 結果最為一致,F1 分數為 0.91 (Edited F1) 和 0.97 (Kept F1)。 最佳句子匹配演算法採用基於 Rouge-L 的 Final-side Greedy 方法,Deleted 門檻值為 0.45,剩餘部分門檻值為 0.3,與人工標記的 F1 分數達到 90.3。

從以下內容提煉的關鍵洞見

by Ryan Lee, Al... arxiv.org 11-21-2024

https://arxiv.org/pdf/2411.13477.pdf
PatentEdits: Framing Patent Novelty as Textual Entailment

深入探究

如何將本研究提出的方法應用於其他類型的知識產權保護,例如商標或著作權?

本研究提出的方法主要集中在利用文本蘊含和語義檢索技術來分析專利申請中的新穎性。雖然直接應用於商標或著作權保護可能不太適合,但其核心概念可以為其他知識產權保護提供借鑒: 商標相似性比對: 可以借鉴語義檢索技術,通過訓練模型來識別語義上相似的商標,從而幫助判斷是否存在商標侵權的可能性。例如,將待審查商標與現有商標數據庫進行比對,找出語義相似的商標,並根據相似度評估侵權風險。 著作權侵權檢測: 可以借鉴文本蘊含技術,通過分析文本之間的語義關係來判斷是否存在抄襲。例如,將待測作品與已知作品進行比對,判斷是否存在實質性相似,並根據相似度評估侵權風險。 需要注意的是,商標和著作權保護的判定標準與專利新穎性判定存在差異,因此需要根據具體情況調整模型訓練和評估方法。

若專利審查過程中的主觀因素難以完全排除,如何評估該方法在實際應用中的可靠性?

的確,專利審查過程中存在一定程度的主觀因素,例如審查員的經驗和判斷。 然而,本研究提出的方法仍然具有實際應用價值,其可靠性可以通過以下方式評估: 與專家評估結果進行比較: 將模型預測的結果與專家評估結果進行比較,例如計算一致性和準確率等指標,來評估模型的可靠性。 進行實際案例測試: 將模型應用於實際專利審查案例中,觀察其預測結果與最終審查結果的一致性,並收集相關數據進行分析和評估。 持續優化模型: 收集更多數據,並根據實際應用情況不斷優化模型,例如調整模型參數、改進訓練方法等,以提高模型的準確性和可靠性。 需要注意的是,模型預測結果僅供參考,最終的專利審查結果仍需由專家進行判斷。

如何利用人工智慧技術促進不同領域的知識交流和創新發展?

人工智能技術可以通過以下方式促進不同領域的知識交流和創新發展: 跨領域知識圖譜構建: 利用自然語言處理和機器學習技術,自動從不同領域的文獻、數據中提取關鍵信息,構建跨領域的知識圖譜,幫助人們發現不同領域之間的聯繫和潜在的創新點。 智能化知識推薦: 根據用戶的專業背景、研究興趣等信息,利用推薦算法主動推送相關的跨領域知識,促進不同領域研究人員的交流和合作。 自動化文獻摘要和翻譯: 利用自然語言處理技術,自動生成不同語言的文獻摘要和翻譯,打破語言障礙,促進不同國家和地區的知識交流。 虛擬研究助手: 開發基於人工智能的虛擬研究助手,幫助研究人員收集、整理、分析數據,提供研究建議,提高研究效率,促進創新發展。 通過以上方式,人工智能技術可以有效促進不同領域的知識交流和創新發展,推動科技進步和社會發展。
0
star