6月28日,沈阳给在武汉的父亲打了一个电话:劝他去地势较高的地区旅游。这通电话源自6月8号的桂林内涝新闻,两地相隔700多公里。
沈阳发出这条提醒的时候,2020年的水患还没完全引发社会各界的关注。当天中午的微博热搜更多关注疫情防控和未成年人保护法修订。直到晚上,热搜里才有几条暴雨的消息。
但6月初那条新闻确实引起了沈阳的注意,作为清华大学新闻与传播学院的教授,他长期从事舆论分析研究,在网络上有100万粉丝。在分析网友言论和长期天气预报后,他预感到位于长江中游的武汉可能出现内涝,便给父亲打电话提个醒。
在电话里,父子俩经历了一番争执,不愿走动的父亲拒绝了儿子的建议,但沈阳的预测却逐渐得到印证。
7月12日17时,汉口江滩三阳门封闭,这是自2002年建成后汉口江滩第一次全面过水行洪。当晚,武汉水位达到28.77米,突破历史第四高水位。而在整个南方,这场百年一遇的大洪水已造成27省份3789万人次受灾,死亡失踪141人,倒塌房屋2.9万间。
7月11日,长江汉口站水位持续上涨,上涨的江水即将淹没武昌黄花矶凉亭。 新华社记者 肖艺九 摄
如何从1亿多条微博、文章、短视频中为未来可能发生的危机预警?在沈阳看来这并非不可能:通过对全网公开信息的分析和挖掘,有望从小微舆情中发现潜在危机,并精准预测风险走向。
网络舆情预测风险:预感武汉疫情暴发,临近发车退掉车票
自大数据概念进入中国以来,Google用大数据预测美国流感暴发的事迹屡被提及。“谷歌流感趋势”有着简单易懂的逻辑:特定关键词的搜索数量可能反映当地的流感疫情。
但由于预测模型的不足,这一系统的预测结果渐渐走偏,与实际情况差距越来越大,“大数据预测”也更多停留在学术层面。而让沈阳进入预测领域的,却是一次生活经历。
1月18日,沈阳准备回武汉过年。当时他隐约有些印象,武汉出现了某种传染病。离发车还有两个多小时,沈阳用自己的大数据系统筛选出部分网友评论,又用微信找网友确认了一下细节。预感到武汉的疫情可能有些严重,他先斩后奏把票退了。
“我父亲当时不是很理解,”在和家人反复沟通后,父亲勉强同意他不回家过年了。几天后,钟南山披露新冠病毒存在人传人现象,全国进入抗疫时间。
这次成功的预警也刺激到沈阳,“我以前做大数据分析,从来没想过这件事可以跟自己的生活这么密切相关。”
沈阳将这种预测方法命名为“基于网络公开数据的风险弱信号发现与预测”。他表示,通过公开的网络舆情,可实现对风险弱信号的发现和预警。他将之视为一个新的研究领域。
所谓“风险弱信号”往往有一类特征——在舆论场中总量不多,上网的时候很难注意到,但其蕴含的风险性可能在未来指数级增长。形象的说,这件事肯定不在“热搜”里,等上“热搜”的时候这件事已经发生并且很大程度上在发酵了。
他告诉南都,这些“风险弱信号”可能潜藏在微博、微信、网页、客户端、论坛、贴吧、短视频等各个角落。而他要做的,就是从每天1亿多条全网数据中,找到那个最终可能演变为危机的风险。
由案例找规律:预测北京二轮疫情走势,加入日韩传播模型
3月初,沈阳在一条微博上对外宣告:今天我们团队成立了灰犀牛研究小组,涵盖灰犀牛大数据、黑天鹅大数据、灰犀牛和黑天鹅预警研判,就目前而言,我团队已经具备数月内会发生的高概率事件的一定预测能力。
这条微博下除了一些“点赞”的表情包,也有质疑之声。“靠谱嘛?”一名网友写道。
沈阳向南都记者解释其原理,灰犀牛是大概率事件,黑天鹅是小概率事件。若要预测小概率事件的发生,就要先找到“黑天鹅蛋”,再判断是否符合孵化蛋条件,包括环境判断、条件判断、变量判断等。
“从本质上讲,我们要发现案例,提炼规则,抓住一个我们想预测的事儿,把这个规则加进原来的分析框架和逻辑里,再来分析。”
他举例,此前英国、巴西等国家的领导人感染了新冠病毒,若能找到其感染后国家政策的调整规律,再有国家元首感染新冠时,就可据此建模推测这个国家的政策走向。
这套逻辑也用在了对疫情走势的预测上。
早在2、3月份,沈阳团队就开始对武汉疫情走势做预测,但他很快发现,如果单纯基于传染病的数学模型计算,其结果不一定准确——疫情防控往往还涉及到当地的人文情况。“由此我们认为,针对具体事件做预测时,还要有具体的逻辑支撑。”
6月初,新冠疫情在北京复燃,沈阳团队也做了自己的预测。在计算一期感染规模时,他沿用了严格的传染病数学模型做推算。而在计算社区传播规模时,则借鉴了日本和韩国的病毒传播情况做推算。
他向南都解释,中日韩三国均受到儒家文化熏陶,老百姓危机意识较强,也愿意为公共利益让渡一部分私人权利。三个国家具体的感染模式也呈现了相似的周期性,当疫情暴发后,隔离措施严格化,感染人数马上就会得到控制。随后为了恢复经济,市场重新开放,疫情又会零散发生。
“所以在疫情防控常态化的情况下,我们认为预测模型可以参考他们的疫情走势。”沈阳说。
如何发现风险弱信号?当风险敏感者说了热搜外的一件事
沈阳向南都记者展示了评估报告,在考虑不同程度的防控措施后,他给出了三种可能的结果。最差情况下,北京此轮疫情将在暴发60天后稳定,最终感染1350人;中间情况是42天稳定,感染500人;最乐观情况下,疫情在21天内稳定,最终感染352人。
总体上看,这次预测的结果比较精准。北京第二轮疫情在暴发26天后进入0新增确诊病例阶段,目前累计确诊335例。“非常幸运,北京的疫情防控措施比日本和韩国严格很多,最后结果是比较乐观的,也较为符合我们的预期。”他说。
沈阳把对疫情的一些预测和分析,包括疫情周期和感染人数提交给有关部门做决策参考。同时,对其他主题的分析和预测也得到了有关部门的回应。
显然,从每天1亿多条网络信息中挖掘并预测可能的“爆点”并不容易。沈阳也总结出一套自己的方法论。
他告诉南都,通过热点发现系统,可以监测中国近3000个县的热点信息,再从出筛选出可能存在的风险。“研究团队会定期关注对大多数人有影响的风险,根据数据变化情况去发现风险。”他解释。
除了对固定地区的监测外,沈阳表示,在研究舆论的10多年中,他们定义了超过10万风险敏感者。这些人往往能发现潜在的风险事件,“如果他们说的一件事不在热搜里,且这件事可能有指数级的增长,就纳入我们的观测范围。”
虽然已有部分预测成功的案例,但沈阳也坦言,对“基于网络公开数据的风险弱信号发现与预测”的研究还刚刚起步,并未对各个预测项目做准确度评估。事实上,他也认为,不可能什么事都预测准确,但目前至少可以形成类似于天气预报的风险预报。
“做预测最好玩的地方在哪?你可以对明天做一个预测,如果这件事明天没有发生,你当时就能看到预测的对错。”沈阳强调,风险预测现阶段还是以人为主、机器为辅做发现和预警,随着时间、经验的积累,未来也有希望过渡到人机并用或机器为主的时代。
“这个时间可能会很长,悲观的情况下,我这代人可能会止步于此,需要我们的学生继续沿着这条路走下去。”他总结道。
南都记者 宋承翰 发自北京
编辑:程姝雯