本論文では、大規模クラウドシステムにおけるインシデントリンキングの課題に取り組んでいる。大規模クラウドシステムでは、サービス間の複雑な依存関係により、ある1つのインシデントが他のサービスにも影響を及ぼすことがある。しかし、従来のインシデントリンキング手法は主に文章情報に基づいていたため、サービス間の依存関係を十分に活用できていなかった。
そこで本論文では、DiLinkと呼ばれる新しいインシデントリンキングフレームワークを提案している。DiLinkでは、インシデントの文章情報に加えて、サービス間の依存関係グラフ情報も活用することで、より正確にインシデントリンクを特定できる。特に、異なるサービスや異なるワークロード間のインシデントリンクの特定に効果的である。
また、文章情報とグラフ情報の埋め込みベクトルの整合性を取るため、直交プロクラステス法を用いた手法も提案している。実験の結果、DiLinkは従来手法に比べて14%の精度向上を達成した。現在、DiLinkはマイクロソフトの5つのワークロードの610サービスに展開されており、オンコールエンジニアの作業負荷軽減に貢献している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問