Conceitos essenciais
Loghub-2.0はLoghub-2kと比較して、より大規模で特徴が異なることが明らかになりました。既存のログパーサーは、Loghub-2.0での性能低下とすべてのメトリクスの分散の増加を経験しています。
Resumo
この研究では、Loghub-2.0とLoghub-2k間のデータ特性における違いを調査しました。 Loghub-2.0は、平均して約1,900倍も多いメッセージ数と3倍も多いテンプレート数を持っており、これにより特徴分布に大きな違いがある可能性が示唆されます。 Loghub-2kとLoghub-2.0間でGAやFGAなどの効果的性能指標を比較しました。また、15種類のログパーサーを使用して実験を行い、それらの効果的性能差異を評価しました。
INTRODUCTION
- ログデータはソフトウェアシステムの動作を理解するために不可欠です。
DATASET CONSTRUCTION
- データセット構築プロセスでは、厳格な注釈フレームワークが使用されました。
STUDY DESIGN
- 研究質問:(1) Loghub-2.0とLoghub-2kの違いは何か? (2) ログパーサーの性能差異はどうか? (3) ログパーサーのパフォーマンスはどうか?
STUDY RESULTS
- RQ1: Loghub-2.0とLoghub-2k間で重要な特徴に違いがあることが明らかになりました。
- RQ2: すべてのログパーサーは、Loghub-2kからLoghub-2.0へ適用する際に有意義な性能差異を示しました。
Estatísticas
Loghub 14データセット平均:3,601,187行/データセット
Citações
"現在存在するすべてのログパーサーは、すべてのメトリックで明らかな違いを示します。"
"Semantic-based log parsers have consistently demonstrated notably higher PA and FTA scores compared to other log parsers."
"Existing parsers experience a performance drop and an increase in the variance of all metrics on Loghub 2.0."