华师余松森:算法应减少用户特征标签,增强用户对数据控制权

南方都市报APP • 南都大数据研究院
原创2024-12-24 15:18

算法的尺度

算法为各行各业带来了无限可能,然而我们也时常被“困”:“信息茧房”困住了屏幕前的人,“大数据杀熟”困住了钱包,送餐系统困住了骑手,AIGC(生成式人工智能)又带来了新“困境”。

国家网信办等四部门联合开展“清朗·网络平台算法典型问题治理”专项行动,进一步深化互联网信息服务算法综合治理。南方都市报、南都大数据研究院推出系列访谈报道,专访算法领域的实践者、研究者,描摹发展现状,考量应用实效,研判问题风险,探索长效治理,助力塑造更加健康、透明和公平的算法生态环境,推动算法技术发展秉持科技伦理,向上、向善。

系列访谈第3期,专访华南师范大学人工智能学院余松森教授,聚焦算法推荐背后的技术逻辑以及解决之道。

图片

在App上点击浏览一条资讯之后,每次点开就会不断收到各种与其相关内容推送;在某门户网站偶然输入一件商品名字,下一秒在其他购物平台点开发现首页都是关联商品广告……广告、短剧、小说、音乐、资讯等已经与搜索引擎并肩,而算法推荐作为核心驱动力,正在重塑我们的消费生态。

随着算法推荐广泛应用,关于信息茧房等讨论深入到政策制定、学术研究等多个层面。从技术层面来说有哪些算法?如何在应用过程通过技术手段解决算法推荐可能引发的“信息茧房”等问题?南都大数据研究院专访了华南师范大学人工智能学院余松森教授。在其看来,算法推荐系统背后的技术逻辑主要依赖于机器学习、数据挖掘等,建议增强用户对自身数据的控制权,算法编码尽量减少完全依据用户特征、行为习惯为用户设置标签进行差异化推送等行为,切实保护算法应用平台用户的权益。

01

不同算法常常结合使用解决复杂问题

南都:从技术角度来说算法主要包括哪些?

余松森:当前算法主要包括:一是机器学习算法,这类算法旨在利用机器学习的力量实现人工智能系统,称为机器学习模型。机器学习算法本质上是根据其有权访问的数据输出定义自己的一组规则,而无需人工干预。二是深度学习算法,它模仿人类大脑神经元的连接方式,通过构建深层神经网络实现智能任务的训练和学习。三是强化学习算法,其目标是通过试错学习来提高智能体在特定环境中的决策能力。四是生成对抗网络,一种让计算机自动生成新样本的算法,其突破给图像生成、视频合成等领域带来了新的可能性。

南都:这些算法之间有何差异性,主要应用在哪些领域?

余松森:机器学习、深度学习、强化学习和生成对抗网络都是人工智能领域中的重要组成部分,它们之间有显著差异性,各自适用于不同的应用场景。

机器学习是广义上的学习方法,包括监督学习、非监督学习、半监督学习等,广泛应用于推荐系统、搜索引擎优化、金融风险评估、医疗诊断等领域。与传统机器学习相比,深度学习模型通常具有更多的层次结构,并且能够处理更复杂的数据类型,如图像、声音和文本,主要应用于图像识别、语音识别、自然语言处理、自动驾驶汽车等。不同于监督学习需要标记数据和非监督学习不需要任何标签,强化学习是基于奖励机制的学习过程,目标是在给定环境中找到最优的行为策略,主要应用在游戏AI、机器人控制、资源调度等。生成对抗网络独特之处在于它的对抗性训练机制,使得它可以用于生成新数据而不是仅仅分类或预测,主要运用在图像合成、视频生成、艺术创作等。

总体而言,机器学习是一个广泛的术语,涵盖多种技术和方法,深度学习是利用深层神经网络的一种机器学习形式,强化学习关注的是智能体如何通过行动、反馈来学习最佳行为,而生成对抗网络则提供了一种独特的对抗式训练方法,主要用于生成新的数据实例。每个领域都有其特定的应用场景,但随着技术发展,它们之间界限逐渐模糊,常常会结合使用以解决更复杂的问题。

02

算法推荐主要依赖机器学习与数据挖掘

南都:在您看来算法推荐背后的技术逻辑是什么,智能推荐系统如何利用机器学习技术为用户提供个性化推荐服务?

余松森:算法推荐系统背后的技术逻辑主要依赖于机器学习、数据挖掘等,通过分析大量用户行为数据来预测并推送个性化内容。其核心组件包括数据收集、用户画像构建、相似度计算与匹配、排序优化、反馈循环等。具体而言,系统先收集用户多种行为数据,如浏览历史、点击记录、停留时间、搜索关键词以及内容特征信息,构建用户兴趣模型或“画像”,标识出用户的偏好、习惯和潜在需求。

算法推荐已经渗透到我们日常生活中的方方面面。比如在淘宝、京东等购物网站应用中,算法会根据用户历史行为、兴趣爱好、社交关系等数据,生成个性化推荐内容,帮助用户发现他们可能感兴趣的商品。并且推荐系统可以进一步关注用户的新行为,通过在线学习或批量更新的方式改进用户兴趣模型或“画像”,形成一个持续优化的闭环。这种迭代过程使得推荐结果越来越精准,也能够适应用户兴趣的变化。

03

建议增强用户对自身数据的控制权

南都:针对算法推荐可能带来的“信息茧房”问题,在算法技术设计应用等层面可以采取哪些举措,更好规避风险?

余松森:算法推荐的运行是通过所掌握的用户个人数据、浏览记录等,对其进行标签化并精准推送其感兴趣的内容,实质是一种“标签化+分类化”的过程。为避免产生类似“信息茧房”问题可以尝试采用以下方式:一是增强用户对自身数据的控制权,赋予个体有关数据处理的各项权利,如对个人数据的访问权、删除权、更正权、限制处理权等,将个人数据的处理与使用范围掌控在个人手中。二是算法编码应减少针对用户特征和行为习惯为用户设置标签,并依据其进行差异化推送等具有歧视性的行为,切实保护算法应用平台用户的权益。

南都:在应用过程中,如何通过技术识别并修正算法歧视问题,需要强化或改善哪些应用能力来提高算法背后技术的透明度?

余松森:算法歧视是以算法为手段实施的歧视行为,即不公平的结果使一个任意的群体凌驾于另一个群体之上。它一般发生在自动化系统导致基于种族、肤色、民族、性别、宗教、年龄、残疾、基因信息或任何其他受法律保护分类的不合理待遇或影响的过程中。

我认为应用过程中如何采用技术手段识别并修正算法歧视问题,首先算法在被允许进入市场之前,需对算法设计的潜在缺陷进行审查测试,通过测试将最终结果反馈给相关设计人员,以规避可能出现的风险。其次,在算法运营过程中,专业人员还应当持续审查并反馈算法模型是否会输出歧视性结果。再者,倡导由独立的第三方机构对算法使用效果进行事后反馈,即要求从事算法活动的企业如实记载并反馈算法模型、基础数据和决策环节等相关内容。

在算法测试阶段,不仅要测试算法在技术方面影响,而且要考虑其对公平、偏见、透明度的考虑。此外,适当引入可视化工具、借助量化影响分析生成算法透明度报告,加强监管与审计等措施,可以有效增强算法的透明度和可解释性,从而增强普通公众的信任。

以某智能辅助教育系统AI Access为例,其能精准诊断学生在知识掌握上的优势与不足,根据学生需求定制并推送学习材料,促进学习者间的互动合作。同时,借助对学生学习行为的深度分析与预测,助力教师实施更精准的分组教学与班级管理策略。此类系统设计中,算法的透明度与可解释性是关键考量。为此,系统设计过程中要求其工作逻辑与决策过程清晰可辨,确保每一步操作有据可循。推出评估项目,依托大规模社会实验,为学校绩效进行精准评分,为权威机构提供了科学决策的坚实依据。

图片

余松森,华南师范大学人工智能学院教授、博士后,主要研究领域包括视觉感知与图像处理、智能算法与模型研究、大数据挖掘分析等。曾经主持及参与国家自然科学基金、国家中小企业创新基金、广东省应用型科技研发专项资金等相关项目,参与制订广东省高端新型电子信息产业地方标准等。目前承担广东省基础与应用基础研究基金省市联合基金重点项目——陶瓷墙地砖分级分色高速在线视觉检测的AI模型及算法研究任务。


出品:南都大数据研究院

采写:南都记者 袁炯贤

设计:罗锐

更多报道请看专题:算法的尺度

对这篇文章有想法?跟我聊聊吧
南都新闻,未经授权不得转载。授权联系方式:
banquan@nandu.cc,020-87006626。