מושגי ליבה
特許類似性タスクにおけるSBERTアーキテクチャのドメイン適応が最高のパフォーマンスを発揮することを示す。
תקציר
この論文は、特許テキストにおける特許類似性に関する議論を豊かにしました。まず、事前学習された静的とコンテキスト依存の埋め込みがこの特定のタスクでどれだけ異なるパフォーマンスを発揮するかを分析し、新しいSOTAコンテキストモデル(Patent-SBERT-ub-adapt)を提案しました。次に、SBERTモデル間でどれが特許類似性タスクで最も優れたパフォーマンスを発揮するかを識別するために異なるアーキテクチャを比較しました。
Introduction
特許は所有者に他者が特許取得した発明の製造、使用、販売、販売提供、または輸入から除外する法的権利を提供します。
最近では、特許解析と自然言語処理(NLP)を結びつける研究が増加しています。
特許テキスト間の類似性はイノベーションエコシステム内のアクターのイノベーションパターンやダイナミクスをマッピング・理解・予測するための重要な手段です。
Related work
パテント分析用単語埋め込み作成への最近の貢献や多ラベル分類課題と特許類似性計算と組み合わせたアプローチなどが紹介されています。
Data
2つのデータセットが作成されました:SBERT派生モデル用トリプレットデータセットと検証用特許干渉データセット。
データ収集元はPatents Viewであり、それぞれ必要な情報(CPCクラス割り当て情報、出願日情報、抽象情報)からトリプレットや干渉ペアが生成されました。
Models and experiments
静的またはコンテキスト依存埋め込みがこの特定タスクでどちらが優れているか評価されました。
SBERTアーキテクチャから派生した3つの異なるモデル間で比較実験が行われました。
Analysis
5つの異なるモデル間で比較実験が行われ、SBERTアーキテクチャだけでも結果が報告されました。
סטטיסטיקה
"Patent SBERT ub adapt" ドメイン適応SBERTアーキテクチャは52%で最高値, 40%で最低値.
"Patent SBERT ub" SBERT ubは32%で最高値, 26%で最低値.
"Word2vec TF-IDF" Word2vec TF-IDFは11%で最高値, 15%で最低値.
"Doc2vec" Doc2vecは4%で最高値, 6%で最低値.
"Patent SBERTa" Patent SBERTaは1%で最高値, 13%で最低値.