三问微软蓝屏事件:全球互联网基础设施为何如此“脆弱”?

南方都市报APP • 隐私护卫队课题组
原创2024-07-26 19:30

微软Windows系统大规模“蓝屏”事件过去已近一周,但引发的风波仍未止息。在微软方面把责任推给欧盟,声称其应为事故负责后,直接“罪魁祸首”之一CrowdStrike公司近日就此事发布了详细报告,解释漏洞产生的具体原因,称今后将加强针对更新的前置测试以确保其安全性。

南都·隐私护卫队了解到,此次事件造成约850万台计算机系统崩溃,外媒称之为“史上最大规模IT故障”,我国公共基础服务几乎未受到影响。此外,这场波及全球的系统崩溃事件还引发了各方对政府及企业高度依赖单一软件或服务的担忧。

为何CrowdStrike的一次更新,会造成全球这么多系统崩溃?一些互联网基础设施为何如此“脆弱”?“蓝屏”事件敲响了什么安全警钟?大范围掌握全球计算机系统的“巨头”微软的权力是否应受到限制?

1

一问:为何会造成全球这么多计算机系统崩溃?

“抱歉,酒店现在无法办理入住。”

7月19日,身处美国波士顿的谢丹夏在办理酒店入住时遭遇了难题。酒店的电脑屏幕上均呈现一片“蓝海”,店员面对失灵的设备束手无策,一众顾客只得无奈等待。同一时间,曼哈顿的哥伦比亚大学里,顾荣辉的工作也被迫停止,原因是整个学校的计算机系统都中断了。

电脑系统突然瘫痪的情况并不只发生在这两个地方,那一天,全球大约有850万台微软Windows设备因故障无法使用。

日常工作被耽误或还容易补救,更严重的是,该时段全球范围内许多公共服务也“罢工”了。多国交通、金融、医疗、物流等行业服务被迫中断,航班停飞、医院停诊、新闻停播、商店停售、证券交易瘫痪等乱象纷纷上演。

图片

加拿大某机场因技术故障取消航班的网络通知。图源自新华社

在焦头烂额的人们迫切等待电脑恢复时,微软公司发言人作出回应,称出现大规模“蓝屏”现象的原因是为微软提供安全服务的第三方软件平台CrowdStrike更新程序时存在代码缺陷。CrowdStrike一下子成为关注焦点。

不久,CrowdStrike创始人兼CEO乔治·库尔茨(George Kurtz)也赶忙出面安抚人们的情绪,称此次事件不涉及网络攻击,已确定问题所在并部署修复措施。晚间,微软方面再发文称,根本问题已得到修复,正采取其他措施消除剩余影响。

人们还没来得及弄清楚这场事故的来龙去脉,其负面影响就先反映在了股价上。事情发生后,微软和CrowdStrike的股价一路暴跌。其后,相关消息上达美国白宫,库尔茨也将应召前往国会作证。

经过几天抢修,7月21日,CrowdStrike方面发表声明,称还在加快推进设备修复进程,目前大部分已恢复正常。

南都·隐私护卫队了解到,外媒将此次“蓝屏”事件称为“史上最大规模IT故障”。披露的事故原因让不少人产生疑问——一个软件更新漏洞“威力”为何如此之大,能让数百万台电脑通通“罢工”?

无糖信息售前总监陈立果分析,单一的安全软件漏洞影响如此之大的原因有两点,底层权限与广泛部署。

安全软件需要检测、发现、阻断、清除恶意软件,为了能对抗病毒,木马甚至rootkit等恶意软件,必然被赋予更大的权力,即操作系统的底层权限。拥有系统底层权限的安全软件一旦出现漏洞,就可能导致大面积系统“蓝屏”等故障;不过,若没有足够的底层权限,其在面对棘手的恶意软件时可能又无法有效对抗。此外,CrowdStrike的高市场占有率也是事故影响范围大的前提。

CertiK联合创始人、哥伦比亚大学计算机系教授顾荣辉告诉南都·隐私护卫队,此次事件中影响到系统底层的重大故障,即使是微软和CrowdStrike也无法通过远程方式快速修复,必须依赖人工手动的方式逐一操作。而且即使漏洞被修复,之前已经完成更新的设备仍然会受到影响,因此需要的恢复时间更长。

资深数据法律师袁立志指出,一方面,当前Windows操作系统拥有极高的市场占有率,覆盖了交通、医疗、金融等重要行业;同时,网络安全技术公司CrowdStrike在其细分领域占有率也很高,市场供给方集中。另一方面,无论企业还是个人用户对微软都有很高信任度。

“在这样一个格局下,这种级别的事故出现就是大概率事件……软件错误其实是比较常见的,只不过因为正好发生在Windows系统,才会影响范围如此广泛。”袁立志说。

19日对很多国家“打工人”而言是不同寻常的一天,我国对这一情况知悉得却有些“后知后觉”——中国公共基础服务几乎未受到影响,这是为何?

顾荣辉表示,由于CrowdStrike对华禁售,国内受影响的主要是外企、外企在华分支机构及合资企业,估计国内CrowdStrike软件的装机量在万级,相关单位数在百级。

北京汉华飞天信安科技有限公司总经理彭根指出,中国公共基础服务几乎未受到影响,主要得益于我国相关战略政策,在数字化过程中坚持科技自主可控,实现操作系统国产化。

2

二问:“蓝屏”事件敲响了什么安全警钟?

数字社会下,计算机系统瘫痪带来的影响是全方面的。19日当天,全球范围内超过2000架次航班被取消,大量旅客滞留机场;医院医疗设备瘫痪,自动配药柜和安全系统失效;银行服务中断,连超市收银机都无法收钱……国外主流社交媒体上铺天盖地都是相关吐槽,“打工人”无奈留言“感谢微软,提前放假!”

这时,特斯拉创始人、CEO埃隆·马斯克代表众人首先表达了不满。20日,他发文谴责此次事件对汽车供应链造成了严重冲击,并表示已经从所有系统中删除了CrowdStrike软件。似乎是担心语言不足以表达情绪,马斯克还附上了一张“火烧机房”的AI生成图片。

图片

马斯克“火烧机房”。

24日,CrowdStrike终于给出一份交代,在其发布的报告中解释了事故的具体原因,并强调今后将加强针对更新的前置测试以确保其安全性。

“蓝屏”事件无疑给全球科技企业都敲响了一记警钟。遇到这类突发情况时,他们该怎么应对?

在顾荣辉看来,面对突发的IT系统故障,良好的数据管理和IT治理实践要求企业实施数据冗余策略,即使用多个备份来存储关键数据,以防原始数据丢失或损坏。同时,企业可能会使用灾难恢复(DR)计划确保在系统故障发生后能够快速恢复服务。

南都·隐私护卫队梳理发现,虽然这并非微软系统首次出现大规模“宕机”,但却是近年来最严重的一次。据报道,今年1月,微软云服务发生全球性“宕机”,影响范围覆盖了从Outlook到Teams等一系列服务。5月,微软的Bing、Copilot服务大规模中断长达24小时。

既非极小概率事件,各方在防范这类系统性风险方面就应有所作为。

顾荣辉认为,从软件供应商的角度来看,今后需明确并严格执行软件更新的测试和验证机制,确保其稳定性和安全性。在部署更新时,必须执行固定的更新范围与更新节奏,确保即使出现任何问题,也能及时控制影响范围与程度。

对企业而言,必须保证核心系统采用高可用架构、定期执行灾难恢复和业务连续性计划的测试,同时应尽量减少对单一供应商或技术的依赖。通过采用多元化的技术解决方案,降低因单一故障点而引发的系统性风险。

此外,企业还应定期针对基础设施开展风险评估和安全审计,以便及时发现风险并进行修复。应建立一个强大而全面的监控系统,监测系统的健康程度与安全状态,出现异常时能迅速响应。

袁立志表示,从ICT(信息与通信技术)供应商角度看,既要做好自身的网络安全管理,还要关注上游、开发者、合作者的网络安全风险,避免出现连锁反应而被牵连。从企业、用户的角度看,过度集中依赖某些基础软件可能会造成非常被动的局面。

不过,他强调,在某些领域,由于能提供相同级别ICT产品或服务的供应商并不多,用户的选择余地不大,除了平时做好防护工作外,发生安全事件时及时采取应急措施显得格外重要,有利于将损失降到最小。

比如,部署备用系统,以便紧急时接管或切换;做好相关数据备份,防止数据丢失泄露;完善应急响应机制,做好类似各种极端场景的应急预案,开展故障应急演习等等。

供应链国产化使我国免受此次事故伤害。不过,绿盟科技副总工程师林涛指出,受各种因素影响,当前我国信息系统中仍有许多非国产的应用软件甚至基础软件,对于短期内无法替换的软件,还需加强自主化的安全运营保障,同时加快重要软件产品的国产化研发和部署应用。

3

三问:巨头微软是否触及反垄断?

几行代码错误,就能引发一场全球范围的科技“海啸”。除了网络安全责任,有关微软垄断地位的争议近日也甚嚣尘上。

事件发生后,美国联邦贸易委员会(FTC)主席莉娜·汗(Lina Khan)发文称,该事件揭示了集中化如何孕育出脆弱的系统。NextGen Competition的执行董事乔治·拉基斯(George Rakis)也指出事故根源离不开软件垄断。

北京师范大学法学院博士生导师、中国互联网协会研究中心副主任吴沈括指出,此次事件体现出当前数字社会对现代信息技术的依赖性,以及全球技术基础设施的脆弱性。

顾荣辉表示,必须警惕对单一供应商软件或服务的依赖风险。在选择安全服务时,应采取多元化策略,以增强系统的抗风险能力。

微软对全球计算机系统的掌控程度如此之高,是否触发了反垄断问题?其权力应受到合理限制吗?

“微软系统在全球操作系统软件中占据庞大的市场份额,所以一旦出现问题,就会对社会经济造成非常广泛的负面影响。从防范风险的角度来说,应该鼓励发展、采用多元化的操作系统以及尽量倡导开源系统。同时,这次事件敲响了一个警钟,不论某个平台如何强大,都必然有一些不可预测的潜在风险。”清华大学社科学院经济所长聘副教授谢丹夏表示。

在他看来,平台进行反垄断监管、避免经济体中出现在某一市场中“赢者通吃”的大平台,是缓冲潜在风险的重要方式,且不同平台对网络效应的依赖程度以及对外部冲击的敏感性也各异。因此,在实施平台垄断监管时,需要根据不同类别平台所对应的不同风险特征,实施分类监管。

对应到此次事件,谢丹夏认为对于金融服务类平台、计算应用类平台等容易引发频次低但危害强度大的“黑天鹅”风险的行业,应该更多地考虑平台集中度增加带来的效率提升与风险加剧二者间的权衡,可鼓励培育多平台的市场结构,以分散可能产生的风险。

陈立果预测,事故造成的经济损失可能高达数十亿美元。谁该为“蓝屏”事故买单?23日,微软“甩锅”给了欧盟,称其应为此次事故负责。

原来,微软与欧盟曾在2009年达成一项协议,协议要求微软允许其他供应商在Windows操作系统上安装第三方安全软件,微软认为此举降低了系统安全性,导致其无法在Crowdstrike的更新出现问题时采取安全措施。

对此,谢丹夏表示,微软和欧盟分别代表了一种短期和长期视角。正如将一盆长期在温室里生长的植物移到室外,它一时间很难经受得住外界风霜和病毒的侵袭,但随着这盆植物适应了外部环境,反而会变得更加强壮。“长期来看,一个经受诸多考验的、透明的开源系统更为稳健和安全。”

南开大学竞争法研究中心主任,法学院副院长、教授陈兵认为,单从此次微软“蓝屏”事件来看,并不涉及反垄断问题。

陈兵指出,在相关领域内,很难找到与微软同一级别的供应商,更遑论替代微软。而且微软作为全球普及率最高的操作系统之一,其对网络安全的重视程度和实施水平几乎也是最高的。因此,针对此类事件,比较合适且务实的解决方案是由相关部门加强监管,将微软的行为限制在一个可控的范围之内,给予微软一定的整改时间和机会,要求其提供相应解决方案等。

经此一役,CrowdStrike可谓在全球“出圈”了,今后面临的还有海量诉讼和索赔要求。24日消息,马来西亚数字部长哥宾星·迪奥(Gobind Singh Deo)表示,已向微软、CrowdStrike提出要求,对全球系统“宕机”期间遭受损失的公司作出赔偿。

“如果你是CrowdStrike的律师,就别指望过好剩下的夏天了。”Wedbush证券分析师丹·艾夫斯(Dan Ives)说道。

出品:南都数字经济治理研究中心

采写:南都记者樊文扬 黄莉玲 李玲

编辑:李玲

4
对这篇文章有想法?跟我聊聊吧
南都新闻,未经授权不得转载。授权联系方式:
banquan@nandu.cc,020-87006626。