Główne pojęcia
本文提出了一种名为LoFI的方法,自动从日志中提取故障指示信息,包括故障指示描述(FID)和故障指示参数(FIP),以协助工程师进行故障诊断。
Streszczenie
本文首先通过对CloudA公司的故障诊断实践进行初步研究,总结出两类常用的故障指示信息:故障指示描述(FID)和故障指示参数(FIP)。FID描述了系统异常事件,包括错误消息、缺失组件、异常行为和错误状态等;FIP指出了需要进一步调查的故障位置,包括地址、组件ID和参数名称等。
为了自动提取这些故障指示信息,作者提出了LoFI方法,包括两个主要步骤:
日志选择阶段:LoFI首先选择可能与故障相关的日志,通过选择严重级别较高的日志以及语义相似的日志,减少无关日志的干扰。
基于提示的提取阶段:LoFI利用预训练语言模型(PLM)通过设计特定的提示问题,有针对性地提取FID和FIP。这种方法可以让PLM忽略日志中的噪音信息,给出更准确的结果。
作者在Apache Spark和工业数据集上评估了LoFI的性能,结果显示LoFI在FID和FIP提取上均显著优于各种基线方法,F1值分别提高25.8~37.9个百分点。此外,LoFI在CloudA公司的部署和用户研究也验证了该方法的实用价值。
Statystyki
只有约1.7%的日志包含故障指示信息。
只有约14.1%的日志内容词语指示了故障或问题。
Cytaty
"日志是维护在线服务系统的关键,通常包含有效的故障缓解信息。"
"手动调查大量日志是劳动密集型和容易出错的,需要自动化工具来提取关键信息。"