声纹反欺诈已挽回数十万元损失 专家:系统识别准确率近99%

南方都市报APP • AI前哨站
原创2020-08-25 12:22

近年来,盗用他人身份进行信贷欺诈的案例时有发生。据媒体报道,此前陈先生准备买房时,却发现自己名下多了一笔490万元的贷款,且已产生超过267万元的利息。但经鉴定,借款材料上的签名和指纹均非出自陈先生。

为鉴别是否不法分子盗用他人身份进行信用卡欺诈,中国工商银行于今年六月推出声纹风控系统,该系统第一批于北京、湖北、四川和陕西的四家分行上线,上线一周便成功防堵欺诈数十笔,挽回经济损失数十万元。

那么,这套帮助银行进行“反欺诈”的声纹系统是如何运作的?背后的原理又是怎样的呢?为此,南都记者采访了此次为工行提供声纹技术的声扬科技首席科学家张伟彬。

声纹认证早有应用,现有系统识别准确率接近99%

南都:在工行业务系统中,哪些环节运用到了声纹技术?

张伟彬:工行首期投产应用在信用卡声纹风控环节,在线上办理信用卡申请、启卡、尽调环节,通过声纹1:N辨认,搜索黑声纹库,若识别出具有相同声纹但登记了不同身份信息的可疑人员,及时为银行客户经理预警,避免损失。

未来,App的登录环节将是一个很好的应用场景。在登录界面弹出一串随机数字,用户需要将数字读对且声纹匹配成功,才能登录,这样更安全地保障用户账户安全。

南都:怎么想到利用声纹进行反欺诈的?

张伟彬:其实类似的事情我们之前已经做过了,只是在国内应用得稍晚一些。比如说在印度尼西亚,退休人员需要做身份认证才能领取养老金。在没有声纹认证系统的时候,这些老人家需要亲自去银行或者当地柜台领取养老金。应用声纹识别以后,老人家们不需要到现场了,可以通过远程打电话的方式来做身份认证。通过电话确认老人家们还生存着,没有去世,而且是他本人,政府就会给他发养老金。

南都:声纹识别系统如何识别特定个人?

张伟彬:有一句话是有多少人工智能就是有多少人工,目前几乎所有的人工智能都采用监督学习的方式,就是通过人工的标注来帮助机器进行学习。比如说,我给系统两条音频,这两条音频可能内容是完全一样的,也可能不一样,然后告诉它这两条音频都是同一个人的,它就会学习如何鉴定不同人的声音。 

南都:研发声纹系统的过程中,遇到比较大的困难是什么?

张伟彬:首先是短语音的声纹识别,以App登录为例,系统要通过用户说的八个数字来验证用户的身份,其实录下来的语音是非常短的,大概只有两到三秒,这个技术其实是挺难的。

另外一个是跨信道的声纹比对。所谓跨信道,就是比如说用户在登录App时,是用手机录音注册声纹,而后续验证身份的时候,是银行客服人员通过电话进行验证,这两个信道其实是不太一样的,声音质量差别也挺大。类比图像分辨率来说,如果说通过手机录音收集的声音是一张高清的图片,那通过电话收集的声音就是只有手机一半甚至更低分辨率的照片,就会丢失一些声音的特征,所以识别率就会差一些,我们也是希望通过技术手段去弥补这些缺陷。

南都:现阶段声纹识别系统的准确率能达到多少?

张伟彬:如果只涉及App的注册和验证,我们现在可以达到99.7%的准确率,如果说是电话信道识别准确率,相对效果会差一些,达到99%。

AI合成技术难以破解声纹认证,声纹支付可能并不遥远

南都:人脸识别可能会被照片、3D模型等破解,那声纹识别有没有可能被AI合成语音、播放录音等方式破解?

张伟彬:声音跟人脸不一样的地方在于,声音是有内容的,而且是可变的。人脸的话,我们可能一辈子就是长这个样子,没法变。以App登录为例,用户需要念八个验证数字,这个数字每次都是随机出现的,系统会验证用户念得对不对,如果不对的话,就不需要做声纹比对了。

其次,当客服人员通过电话跟客户对话的时候,如果对方是语音合成的声音,那不要说机器,人也是一听就能听出来。比如说,现在有的导航软件会使用郭德纲、林志玲的声音,但是我们一听就知道不是本人说的,因为我们正常人说话的时候,声音是有抑扬顿挫的,有起伏的,

但受限于现在的技术,语音合成出来的声音,都是平平稳稳的、比较僵硬的。

如果声音是用设备播放出来的,这种时候可能人听不出来太大的区别,但是机器它会更加敏感。因为像我们人在说话的时候,声音频谱的高频部分其实是不太丰富的,但是喇叭播放出来的话,它的高频部分是比较异常的。而且声音在录制和播放的过程中,也是会有损耗的,这样的声音百分之百通过不了我们系统认证的。

南都:和人脸一样,声音也是人具有唯一性的生物特征,那么如何保障用户声纹数据的安全?

张伟彬:声音相对人脸来说,我觉得公众对它的隐私担忧会低一点。比如对于我来说,在我家里放一个音箱,我觉得可以接受,但是如果放一个带摄像头的音箱,我就会觉得非常惶恐。

另外,从理论上来说,声纹认证系统不需要储存用户的声音。用户录完音后,系统会提取出声音的特征并转化为声纹码,存储和传输的也是声纹码。但也有一些人会有疑惑:是不是通过声纹码就可以复制这个声音了?其实不是这样子的,它其实是一个不可逆的过程。声音变成声纹码以后,它就变成一串数字代号,这些数字代号本身就是加密的,是跟算法和模型绑定在一起的,别人是无法破解的。比如说我们可以从一根头发里提取一个人的DNA,但你无法根据DNA再把这根头发复原出来,起码目前的技术是做不到的。

南都:声纹、人脸识别各自有什么优势,适应什么样的认证场景?

张伟彬:以后可能会倾向于采用多生物识别的方法进行认证。比如说传统的人脸认证方式,它容易被一张照片或者3D打印模具破解,所以会要求用户做一些看上去挺傻的活体认证动作,比如说摇摇头,眨眨眼睛,张张嘴巴。以后用户可能在录像的同时说几个数字就可以了,整个认证的过程就比较流畅、自然,并且安全性也提升了。

从应用场景上来说,图像的传播距离是比较远的,采集十米以外的人像,在光照比较好的情况下,摄像头应该是没有问题,但是声音在传播的过程中的衰减比较快的,基本上就不太可行,所以很少见麦克风和摄像头一起用于安防监控。而在打电话这种只有声音没有图像的情况下,声纹就是比人脸更合适的验证方式。

南都:未来声纹还可能有哪些应用?

张伟彬:以后来说,我觉得声纹支付不久就可以走进我们的生活。现在都提倡无接触的支付方式,刷脸支付正在普及,其实声纹也可以是一种支付方式,比如说今年疫情期间,戴口罩可能脸就刷不出来了,这个时候声纹就可以提供帮助了。

另外,其实声音里还隐含了人的很多信息,比如性别、年龄甚至情绪。识别年龄这方面已经有了应用。之前某地想针对已生育女性做电话调查,这个调查是通过机器来进行的,调查人员担心机器问到男性影响调查结果,于是就运用到了通过声音识别性别的技术。

此外,我们现在有一些能识别情绪的系统,大概能将声音分为中性、负面和正面这三类,未来我们希望能增加更多的细分类别,比如开心、悲伤等等。


采写:南都记者 潘颖欣

编辑:冯群星

南都新闻,未经授权不得转载。授权联系方式:
banquan@nandu.cc,020-87006626。