Steve Dent for Engadget
据CrowdStrike在事故后评估报告(PIR)中称,一场有缺陷的测试软件导致一项漏洞百出的更新在全球范围内导致850万台Windows机器崩溃。
该公司表示,“由于内容验证器中的一个错误,尽管包含有问题的代码,其中一个更新还是通过了验证。”它承诺将采取一系列新措施来避免此类问题再次发生。
宕机影响广泛
此次大规模蓝屏死机宕机影响了全球多家公司,包括航空公司、广播公司、伦敦证券交易所和许多其他公司。此问题迫使Windows机器进入启动循环,技术人员需要本地访问机器才能修复(Apple和Linux机器未受影响)。许多公司,如达美航空,仍在恢复中。
技术原理
为了防御DDoS和其他类型的攻击,CrowdStrike有一个名为Falcon Sensor的工具。它随附在内核级(称为Sensor Content)工作的代码中,使用“模板类型”来定义防御威胁的方式。如果出现新威胁,它会以“模板实例”的形式发送“快速响应代码”。
问题原因
2024年3月5日发布了一个新传感器的模板类型,并按预期执行。然而,在7月19日,发布了两个新模板实例,其中一个(仅为40KB)尽管有“问题代码”依然通过了验证。CrowdStrike表示,“当传感器收到并将其加载到内容解释器中时,[这]导致内存越界读取触发异常。这个意外的异常无法正常处理,导致Windows操作系统崩溃(蓝屏死机)。”
改进措施
为了防止此类事件再次发生,CrowdStrike承诺采取一些措施。首先是对快速响应代码进行更彻底的测试,包括本地开发人员测试、代码更新和回滚测试、压力测试、稳定性测试等。它还将添加验证检查,并增强错误处理。
此外,该公司将开始对快速响应代码采用分阶段部署策略,以避免全球范围的宕机再次发生。它还将为客户提供对此类代码交付的更大控制,并为更新提供发行说明。
行业质疑
然而,一些分析师和工程师认为该公司从一开始就应该采取这些措施。工程师弗洛里安·罗斯在X上发帖称,“CrowdStrike肯定知道这些更新是由驱动程序解释的,可能会导致问题”。“他们应该从一开始就为快速响应代码实施分阶段部署策略。”
原创文章,作者:星阁,如若转载,请注明出处:http://www.xgrl.net/n/202407242104253285.shtml