面对疫情大考,大数据也在疫情防控、物资调度、智能诊断等多个领域展现价值。但在中国工程院院士、中国互联网协会咨询委员会主任邬贺铨看来,本次疫情中,大数据在科学防控、精准施策方面还有很深的研究空间,“未来,要想真正发挥大数据的价值,还有赖于真实数据的开放、信息安全系统的建立和个人信息保护法律体系的完善”。
对于数据开放,南都大数据研究院数字政府研究中心以各省市的政府数据开放平台为窗口,展开观测分析。结果发现,目前上线了疫情相关数据集的平台,全国只有12个;同时,数据信息价值普遍还不高,而深圳和青岛相对较好。
仅4个平台的病例数据集包含“个案详情”
南都大数据研究院数字政府研究中心对102个省级、副省级和地级政府数据开放平台进行梳理,截至3月3日,其中只有12个省市上线疫情数据集。而为了进一步了解数据集价值,我们以数据开放“可获取的”、“可机读的”等为基本原则,设置12项具体字段分析指标对各平台新冠肺炎病例开放数据进行比照。
结果发现,12个政府数据开放平台中,新冠肺炎病例数据集包含10项以上指标的平台占比为33%。省级政府数据开放平台的相关数据集在丰富性、可用度上均明显弱于市级平台。
具体来看,各平台病例数据集里,“确诊病例数”100%公布,而且部分平台还细分为“新增确诊病例数”“累计确诊病例数”。”病例轨迹“50%公布,包括北京、山东、深圳、贵阳、济南、青岛6地政府数据开放平台。而“个案详情”“分类病例数”则分别只有33%公布,如山东、深圳、贵阳、青岛的政府数据平台上线“病例个案详情”数据集。
青岛深圳平台病例数据集信息更丰富
南都大数据研究院数字政府研究中心还比照发现,在已上线疫情相关数据集的6个省级政府数据开放平台里,对病例数据开放比较丰富的是“山东公共数据开放网”,12个字段分析指标里,包含了9个。
另外6个已上线疫情相关数据集的市级政府数据开放平台中,对病例数据开放比较丰富的是“青岛市公共数据开放网”,12个字段分析指标全都有涉及,其次是“深圳市政府数据开放平台”等。例如,“深圳市政府数据开放平台”9个疫情数据集均按主题细化,包括每日新增出院病例、每日诊疗情况、每日确诊病例所属行政区、确诊患者曾逗留过的场所位置坐标、确诊患者曾逗留过的场所名单等,而在“每日新增确诊病例个案详情”里,包括发布日期、发布时间、病例号、年龄、性别、居住地、与其他病例关系、在武汉时间(区间)、来深时间、发病时间、入院时间、染病原因、病况、备注(症状与途经地)等14个字段。
1月30日北京山东率先上线疫情数据集
梳理这些省市政府数据开放平台疫情数据集上线时间,发现上线最早时间为2020年1月30日,为“北京市政务数据资源网”、“山东公共数据开放网”以及“济南市公共数据开放网”(报道链接)。次日,“深圳市政府数据开放平台”上线疫情数据集,2月1日在首页明显位置开设“深圳市新型冠状病毒感染的肺炎疫情数据”专题(报道链接)。
疫情数据集中五成有关病例信息,深圳贵阳下载格式多
12个省市政府数据开放平台,至今已上线69个疫情数据集。其中,“济南市公共数据开放网”上线疫情数据集最多,其次是“深圳市政府数据开放平台”。从疫情数据集的具体内容来看,49.3%为新冠肺炎病例信息。
这些疫情数据集里,85.5%所属主题为“医疗卫生”或“卫生健康”,其余包括“社会救助”、“生活服务”、“教育科技”、“经济建设”、“社会保障”以及“交通运输”等,例如“开放广东”上线了数据集“疫情防控物资生产及配套企业复工复产名单”等。
不过,这些数据集并非每个都提供文件下载、元数据、关联信息、数据项、数据预览、可视化分析、API详情、数据纠错等信息内容和服务功能。所有疫情数据集均提供xls、csv、xml、json、RDF五种可机读格式的,只有“深圳市政府数据开放平台”、“贵阳市政府数据开放平台”,而其他平台多数提供4种。其中,14.5%疫情数据集仅提供xls格式。
南都大数据研究院梳理还发现,有的平台疫情数据集下载不够便利,过程比较繁琐。研究人员在“北京市政务数据资源网“下载”新型冠状病毒感染的肺炎病例信息”数据集时,注册之后显示登陆失败,找回密码过程又无法收到反馈邮件,也无法使用手机号码验证登陆。相比,“开放广东”、“山东公共数据开放网“等数据平台注册方式多样,疫情数据集下载便利。
疫情开放数据应可与其他数据互联互通
政府开放什么样的疫情数据才能真正“能用”、“好用”?复旦大学数字与移动治理实验室主任、国际关系与公共事务学院郑磊教授谈到,普遍接受的数据开放基本原则包括“完整的”、“一手的”、“及时的”、“可获取的”、“可机读的”、“非歧视性的”、“非专属性的”等七项。
北京大数据研究院智慧城市实验室主任、教授级高级城市规划师王鹏在《从新冠疫情的压力测试,看智慧城市的未来》文章中也提到,信息公开和数据开放机制是智慧城市运转的重要软性要素。数据开放,意味着政府数据有足够的颗粒度,可机读,可与其他数据互联互通。各学科学者才能积极利用政府开放数据建模分析,与其他数据融合分析、深度挖掘,为疫情走势提供支持与建议。
编辑:袁炯贤,凌慧珊
更多报道请看专题:疫情信息公开质效观测