Core Concepts
最新のディープラーニング、ビッグデータ、自然言語処理技術を活用することで、従来のルールベースシステムを上回る精度と特異性でウェブサーバーのバージョンを検出できることを示した。
Abstract
本研究では、HTTPレスポンスヘッダーを活用してウェブサーバーのバージョンを検出する手法を提案した。
まず、480万ドメインに対して様々なHTTPリクエストを送信し、HTTPレスポンスの状態行を収集した。これらの状態行をBPEトークナイザーとRoBERTaエンコーダーを使って表現し、次元削減して連結することで、各ドメインのウェブサーバーを表すベクトルを生成した。
このベクトルを入力として、Random ForestとMLPの2つの分類器を学習させた。その結果、主要5種類のウェブサーバーを0.94と0.96のマクロF1スコアで検出できた。さらに、MLPは347種類の主要タイプとマイナーバージョンの組み合わせを0.55の重み付きF1スコアで分類できた。
分析の結果、テストケースが有効な判別要因となっていることが分かった。このアプローチは、従来のルールベースシステムに比べて強力で柔軟な代替手段となることが示された。
Stats
HTTPリクエストに対する応答が404 Bad RequestとなるのはApacheが多い
Microsoft-IISはHTTP/2をポート80では一切サポートしていない
HTTP/1.0の明示的なサポートはウェブサーバーの判別に重要な要因となっている
Quotes
"HTTPリクエストに対する応答が404 Bad RequestとなるのはApacheが多い"
"Microsoft-IISはHTTP/2をポート80では一切サポートしていない"
"HTTP/1.0の明示的なサポートはウェブサーバーの判別に重要な要因となっている"