伴随全国多地中小学逐渐复学,这类人群的复课情况也受到关注:新冠肺炎让在线教育在年初开始便迎来了爆发式增长,但对于视听障学生来说,直播式的无字幕线上课程会让他们一筹莫展。
2020年,业界预测AI技术会迎来较大的升级发展良机。是否会有相关技术解决视听障人群面临的上课问题?近日,南都科创记者采访获悉,多家企业将AI语音技术用于无障碍服务,语音转文字准确率高达95%,转换延迟在0.4秒以内,语音合成技术制作的无障碍电影,模拟效果直逼真人。
场景运用:
转化语音 为听障学生提供字幕
合成语音 为视障观众解说电影
“同学们,今天我们来学一下李白,首先我们来介绍李白的生平……”在一场面向听障学生的网课中,屏幕上随着老师声音出现的除了课件,还有不断滚动的实时悬浮字幕。这是广州音书科技有限公司(下称“音书”)提供的智能字幕速记系统。
“一般学生云上课不是什么难题,因为老师直播讲解都能听明白。但对于听障学生而言,他们是听不到、听不清的,需要借助字幕。”据音书COO彭驷庆介绍,之前这套系统主要在教室设备上使用。为适应远程无障碍教学,方案特意做了优化,特教老师只要在课前打开手机软件进行操作,就能让电脑或手机屏幕实时显示讲课的文字内容。
语音转文字这一技术并不新鲜,但与前几年相比,识别速度和准确度都有大幅提升。
“在老师网络没问题、口语基本标准的情况下,能做到实时出字幕,识别准确率达到95%以上,转换延迟在0.4秒以内,除非是特别生僻的字眼。”彭驷庆说道,今年2月12日至今,已有40多家聋校等特殊教育学校采用了音书的智能字幕速记系统,共计帮助600多位老师实现远程无障碍教学。
听障者把声音转换成字幕来看,视障者则需要把画面转换成语音来听。
“天已大亮,大雄正在睡梦中,还吹了个好大的鼻涕泡……”2019年底,在上海举办的一场无障碍电影研讨会上,由广州深声科技有限公司(下称“深声科技”)通过AI技术制作的两个无障碍电影片段,沉稳男声的《西虹市首富》和童音女声的《哆啦A梦伴我同行》首度亮相。
“第一次听到样音时都不敢相信这‘不是人’(发出的声音),因为我们的耳朵还是很挑剔的。”来自上海的无障碍电影制作公益组织“光影之声”创办人韩颖是一名全盲人士,她说光影之声之前出品过上百个片子,也曾尝试用机器解说,但一听就能听出是机械音。今天的AI技术能达到如此逼真的程度,他们也觉得很惊艳。
对视障人士而言,无障碍电影是指要把影片中没有对白的画面,用准确、精炼的文字解说出来,再经过配音、合成,与电影中的对白及其他音效融合为一体,从而消除视障人士观看画面的障碍。
由于视障人士往往对声音特别敏感,解说必须做到自然清晰、客观且有代入感。在韩颖看来,在研讨会上亮相的两部无障碍电影片段人工语音模拟效果几乎与真人无差别。
据深声科技创始人及CEO周俊明介绍,通过AI语音合成技术解说的无障碍电影《斗犬》已经完成制作和审片,第二部《芳华》正在制作中。
技术困境:
情感语音合成缺乏数据
精准符号无法完整识别
根据音书方面提供的数据,自2016年音书创立后,用户对其软件的平均使用时间每年会增长150%,2017年到2019年,用户的平均沟通次数增加了400%。但彭驷庆坦言,在全国范围的听障群体面前,音书做的还远远不够——“我们从0到1基本上走完了,现在想从1走到100。”
彭驷庆说道,AI语音领域延伸空间大,仍要在技术攻关上狠下功夫。“以音书为例,深度方面,当有噪音或者距离比较远的时候,机器识别的准确率会受到影响;广度方面,一场会议常常有多个人发言,那怎么分辨哪句话是谁说的?这就需要声纹识别的技术。”
在谷歌担任安卓无障碍设计主管的夏冰莹向南都科创记者表示,虽然现在AI语音技术越来越发达,但很多书面语言细节比如精准的标点符号、拼写、数学公式、音乐标记、编程等,这些需要进阶应用的工作,目前AI语音还无法完整实现。
周俊明也认为,相比于人工播报而言,用AI来解说无障碍电影在表现力上依然有所欠缺——特别是当涉及一些要求极高的艺术化、夸张性表演时。人工播报的优势在于自然度和节奏感,这也是深声科技接下来要攻克的一项难题,即情感的语音合成。
而除核心技术外,周俊明真正担忧的还有作为机器学习源头的语音数据的缺乏,因为目前整个行业缺乏夸张性表演的语音数据,而没有好的数据,后期就没法演化出好的技术应用。他提出的数据难题也说明,残障人士的需求依然处于多数人看不见的暗处。
由此,韩颖补充道,在解决技术问题时,还要注重社会上无障碍环境的建设:“一方面,制作好的无障碍电影需要有更多的渠道放出来,让盲人能跟明眼人一样,到院线里面坐下来就能看;另一方面,从法律层面而言,也需要思考怎样在不违反版权要求的情况下在网络平台播放视频,因为线上的影片要将解说的音轨与原影片合成,这就会改变原影片的创作。”
行业问题:
无障碍设计边缘化
科技界需改变心态
“从社会效益来看,我认为AI就应该用在无障碍服务上。”彭驷庆说,这是因为对许多领域而言,AI做的是锦上添花的事;但对无障碍服务而言,AI能够“让不可能变成可能”。
韩颖也表示,帮助残障人士可以走一条高端的路线,不必一谈到他们就有一种“很基本”的感觉,他们也可以对接一些高智能的东西。
但行业现存的问题,正如周俊明提到的,依然在于很少会有企业将最新的技术快速应用到残障群体的生活中,因为这不是企业首先考虑的用户对象。
深圳市信息无障碍研究会是国内最早专注信息无障碍的专业机构,先后推动微信、QQ、淘宝等多款App开展信息无障碍优化工作。
该研究会秘书长杨骅告诉南都科创记者,2013年后,移动互联网的加速发展使得包括残障群体在内的所有用户使用手机和互联网的需求不断增加,而市场上参与无障碍设计的企业主要以BAT等龙头企业为主,小型企业因生存需求投入到无障碍服务中的精力相对较少。
夏冰莹也表示,即便是在谷歌这样全球最大的科技公司之一,无障碍服务的资源也是极度匮乏的。“很多科技界的产品设计师会在提交产品的截止日说:‘你要知道,我也很想做好无障碍,但我们实在没有办法花资源解决一个用户这么少的边缘情况。’”
根本上,科技界需要改变对无障碍服务的心态,因为无障碍设计的意义不是仅限于残障群体,它能够让100%的用户受益:“就好比人行道斜坡现象,在大部分国家,法律都规定要提供人行道斜坡,目的是帮助坐轮椅的人出行,但如果你曾经拉着行李旅行过,就一定也是这个无障碍设计的受益者。”夏冰莹说道。
在现有的科技产品中,这样的例子并不少见。字幕作为最通用的残障辅助功能,最初也是为了帮助听障人士看电视节目而诞生的;被用来扫描文档或翻译的OCR(光学字符识别)技术,最早是帮助视障用户获取信息。
杨骅也强调,科技企业首先要认识到,它们越早进行无障碍设计,研发成本也会越低。“如果一开始在设计功能的时候就去考虑残障群体的需求,后面只要正确实现就不会有大的问题;但如果你已经把产品其他功能实现了,再去改是非常痛苦的。”
值得注意的是,今年3月1日,“互联网盲道”建设迎来了国标,《信息技术 互联网内容无障碍可访问性技术要求与测试方法》正式实施。
这是中国互联网信息无障碍领域的第一个国家标准,通过58项具体指标,给网上无障碍服务提出了规范的技术要求。
“标准的出台说明国内的信息无障碍环境在不断完善,但标准是推荐性的,效力依然有限。”杨骅说道,她期待未来能够有法律法规,通过鼓励性的政策促进更多企业加入信息无障碍行列。
出品:南都科创工作室
采写:南都记者 程小妹 实习生 郭静怡
编辑:任先博