核心概念
DomainLynxは大規模言語モデルを活用し、従来の手法では検出が困難だった新しいスクワッティング手法や低プロファイルなブランドを対象とした検出を可能にする革新的な複合AIシステムである。
摘要
本研究では、DomainLynxと呼ばれる新しい複合AIシステムを提案している。DomainLynxは大規模言語モデル(LLM)を活用し、ドメインスクワッティングの検出精度を大幅に向上させることを目的としている。
DomainLynxのシステム構成は以下の4つの主要コンポーネントから成る:
- 入力データ処理: 証明書透明性ログ、パッシブDNSレコード、TLDゾーンファイルなどの多様なデータソースから入力ドメインを収集する。
- ドメイン名拡張(DNX): ベクトルデータベースを活用し、入力ドメインと正規ドメインの関連付けを行う。
- 脅威認識検証(TRV): LLMを活用し、ドメインスクワッティングの有無を判定する。LLMの信頼性を高めるための手法も導入している。
- 出力生成: 検出されたスクワッティングドメインの一覧を出力する。
評価実験の結果、DomainLynxはLlama-3-70Bを使用した際に94.7%の高精度を達成した。また、1か月間の実運用テストでは、2,099,184件の新規ドメインから34,359件のスクワッティングドメインを検出し、従来手法の2.5倍の性能を示した。特に、上位1,000ドメイン以外のドメインに対する検出率が高く、低プロファイルなブランドの保護にも有効であることが確認された。
DomainLynxは大規模言語モデルの活用により、従来の手法では検出が困難だった新しいスクワッティング手法や低プロファイルなブランドを対象とした検出を可能にしている。これにより、インターネットユーザーや企業の安全性向上に大きく貢献できると期待される。
統計資料
1,649件のスクワッティングドメインを含む評価用データセットを構築した。
2,099,184件の新規ドメインを1か月間にわたり分析し、34,359件のスクワッティングドメインを検出した。
検出されたスクワッティングドメインのうち27.8%が少なくとも1つのウイルス対策エンジンによって悪性と判定された。
引述
"DomainLynxは大規模言語モデルを活用し、従来の手法では検出が困難だった新しいスクワッティング手法や低プロファイルなブランドを対象とした検出を可能にする革新的な複合AIシステムである。"
"DomainLynxは1か月間の実運用テストで2,099,184件の新規ドメインから34,359件のスクワッティングドメインを検出し、従来手法の2.5倍の性能を示した。"