算法为各行各业带来了无限可能,然而我们也时常被“困”:“信息茧房”困住了屏幕前的人,“大数据杀熟”困住了钱包,送餐系统困住了骑手,AIGC(生成式人工智能)又带来了新“困境”。
国家网信办等四部门联合开展“清朗·网络平台算法典型问题治理”专项行动,进一步深化互联网信息服务算法综合治理。南方都市报、南都大数据研究院推出系列访谈报道,专访算法领域的实践者、研究者,描摹发展现状,考量应用实效,研判问题风险,探索长效治理,助力塑造更加健康、透明和公平的算法生态环境,推动算法技术发展秉持科技伦理,向上、向善。
系列访谈第4期,专访清华大学人工智能国际治理研究院特任研究员、北京科技大学文法学院教师曾雄,分析当前算法治理现状、政策趋势以及国际经验,并提出具体治理政策性建议。
《互联网信息服务算法推荐管理规定》中列举详细合规要求,指导、帮助平台企业做好算法合规工作。在清华大学人工智能国际治理研究院特任研究员、北京科技大学文法学院教师曾雄看来,算法治理已经不是政府部门单一的垂直监管,而是多元主体共同参与,需要更重视技术治理措施,并对传统的行业规范进行优化升级,增加新的算法规则,弥补治理漏洞。
对技术治理方案重视程度仍不够
南都:您如何看待此次四部委出台的算法治理政策,与往年相比有哪些差异?
曾雄:经过多年的治理实践,监管机构积累了丰富治理经验,面对“信息茧房”、榜单操纵、大数据“杀熟”等长期存在的算法治理问题,监管机构在此次治理行动中列举详细合规要求,指导、帮助平台企业做好算法合规工作,特别是发布《算法专项治理清单指引》,引导平台企业进行自主审查,实现自我合规,充分调动平台企业的合规积极性。这种做法体现合作治理的理念,不是单一的垂直监管,而是调动多元主体共同参与到算法治理过程中,打破“猫抓老鼠”的监管困境。
南都:您曾经参与主导《我国算法治理政策研究报告》,在您看来当前算法治理现状如何?
曾雄:整体而言,相比于前几年,监管机构在算法治理上取得显著成效,通过算法备案、安全评估制度等工具,对算法整体运营情况有相对全局的把握,对算法运行机理有相对清晰了解,制定和出台较为细致的算法治理规则,让算法治理行动有法可依,也为平台企业自我合规提供了相对明确的指引。
算法本身是一种高效的技术治理工具,正在被广泛运用于治理活动中,比如国外一些企业在数据处理阶段、算法设计阶段和模型优化阶段尝试“伦理设计”,通过技术手段实现对隐私泄露、算法歧视、违规内容泛滥等问题的高效治理。就现有治理规则来看,我们对技术治理方案的重视程度仍然不够。
算法具有复杂性、系统性和不确定性等特征,政府治理算法时,会借助平台、程序员和人工智能专家的信息优势和技术优势。平台、程序员和人工智能专家不仅是政府监管的对象,也是政府监管过程的参与者、决策者和执行者。一旦规制者与被规制者存在较为严重的信息不对称时,规制者在不了解新事物的情况下急于出台强硬的监管措施,被规制者出于自身利益以各种方式逃避监管,监管目标难以实现。
应对原有行业规范进行优化升级
南都:算法治理没有通用方案,需根据场景配备监管规则为算法建立一套体系化综合治理框架,在您看来具体怎么建设?
曾雄:在治理规则上,应对传统的行业规范进行优化升级,增加新的算法规则,弥补治理漏洞。需要细分不同场景,将算法治理规则嵌入到不同场景的行业规范中,主要因为很多算法问题并非仅由算法本身导致,而是算法与行业中的“老问题”相结合产生,抛开原有行业规则,仅依赖新的算法规则无法系统性解决问题。
在治理手段上,要善用技术治理举措。算法应用中可能存在的数据泄露、隐私侵犯问题,可以尝试以数据匿名化、联邦学习、区块链等一系列技术方法予以应对。当前,一些企业采用联邦学习模式,各参与方不需要共享数据就可以联合训练算法模型,已经在医疗、金融等行业领域落地应用。对于算法“黑箱”问题,业界也在开发技术方案,比如谷歌提出模型透明性工具“model card”,微软提供机器学习可解释性工具InterpretML,还有相关协会提出“遵循伦理的设计”,将价值与伦理标准程序化为代码嵌入到系统进行训练、评估,并为设计者提供一套行为准则或设计规范,确立算法的底层伦理标准,实现事前干预。不过,对于业界提出的创新技术或方案,需要完善政策导向、专利制度,推进算法相关发明的可专利性,激发技术创新动力,为算法的技术治理不断提供创新技术方案。
在企业合规内控上,构建并适用全生命周期风险管理流程,保证数据可问责。用于构建算法的数据集很广、种类很多,来源的合法性与否与质量水平高低直接影响算法、模型的风险大小。比如一个算法模型使用有偏见、不准确的数据,模型产生歧视性结果的可能性大增,需要在输入数据阶段充分保证数据的可问责性。具体而言,要确保数据来源合法性,特别是个人数据,应获得当事人授权,要保证数据质量,提高数据集的准确性、完整性、真实性,要采取措施尽量降低或避免数据集的潜在歧视风险。在测试、验证、调试环节使用不同的数据集,检查算法模型是否存在系统性偏差,定期审计、更新数据集,保障数据的准确性、可靠性。
至于如何提高算法的可解释性,我认为可以采取以下措施:完善技术规范文档,将算法设计、预期行为、产品描述等包括在内,以易于理解的描述方式解释模型的功能。在技术上提供解释工具,特别是对于具有“黑箱”特性的模型而言,技术工具有助于人们理解模型输出的基本原理。在特定场景中,对外解释算法模型并不可行,比如用于信息安全、金融安全等领域的算法运用场景中,为防止出现“算法算计”问题,应对算法解释、公开保持谨慎。同时,提高算法可解释性时应考虑知识产权利益,避免暴露机密商业信息。算法模型部署者应建立内部流程对模型进行定期调整,保证模型能根据场景、数据的变化灵活调整。为有效监督、调整模型,应记录模型的训练、决策结果,实时跟踪、审计和评估模型的功能。
对企业的算法治理需提供更多指引
南都:目前国际上有哪些成功算法治理措施或者治理经验,可以为我们提供借鉴?
曾雄:实际上,我国在算法治理上走在前列,诸多治理措施具有首创性,比如算法备案、安全评估制度等。
域外在算法治理上的治理模式可以提供一些借鉴,比如将治理主动权交给行业,由企业组成自我约束的联盟,彼此监督、合作,共同开发技术工具,实现主动合规治理。以新加坡为例,推动自愿性自我评估测试工具的研发与使用,开发一套人工智能治理测试框架和工具,让相关组织与其利益相关者建立信任,实现人工智能系统更透明。其中,测试框架包括人工智能伦理原则的界定、测试标准、测试过程以及衡量指标,伦理原则包括11项国际上已被接受的人工智能伦理原则,提供的工具包有测试可解释性的、测试鲁棒性的和测试公平性的,容易在开发者或用户环境下被部署。相关组织可以先下载工具包,准备好人工智能模型、数据集,调整测试维度,启动测试进行完整的过程检查,生成测试结果报告。此外,搭建人工智能测试社群,邀请行业实践者参与项目,对人工智能系统进行自我测试,生成相关报告向利益相关者展示系统的透明度并建立信任,各成员可以就人工智能治理实践经验进行分享合作。
南都:针对目前算法治理中存在的问题,您有哪些具体治理政策性建议?
曾雄:算法治理中既有老问题,也有不断涌现的新问题,关键不在于算法本身,而是使用算法的方式,算法赋能容易被“异化”,因而治理算法需要全局观、系统性思维,仅聚焦于算法本身治理效果存在局限性,需要结合其他因素综合考虑,出台整体性解决方案。
对于企业而言,做到完全的算法合规比较困难,算法问题“宜疏不宜堵”,即使所有算法进行公开,也无法保证不出歧视问题,因此,对企业的算法治理要求需要重视过程,而非简单的看结果。需要提供更多指引,告诉企业如何操作,发挥标准作用,将法律上的算法合规要求转化为企业能实际执行、操作标准,落地实施。
曾雄,清华大学人工智能国际治理研究院特任研究员、中国政法大学法学博士,清华大学公共管理博士后,北京科技大学文法学院教师,研究方向为科技法、反垄断法。曾在多家头部互联网平台企业从事多年法务合规、政策研究工作,具有丰富行业实践经验,在《国际经济评论》《经济学家》《科学学研究》等核心期刊发表人工智能治理等相关论文数十篇,主持国家社会科学基金、教育部人文社科基金以及科技部专项基金等多项课题,多次参与科技创新2030“新一代人工智能”重大项目。
出品:南都大数据研究院
采写:南都记者 袁炯贤
设计:罗锐
更多报道请看专题:算法的尺度