专访音书科技CEO石城川:失聪后,他帮听障人士读懂世界

南方都市报APP • AI前哨站
原创2023-11-09 20:28

2023年11月8日,以“建设包容、普惠、有韧性的数字世界——携手构建网络空间命运共同体”为主题的2023年世界互联网大会乌镇峰会在浙江乌镇开幕。今年是乌镇峰会举办的第十年,大会以此为契机创设了“全球青年领军者计划”这一活动,在全球范围内遴选互联网优秀青年,此次共有来自5大洲14个国家和地区的18位优秀青年入选该计划。

图片

来自中国的石城川是这十八分之一。乍看之下,他身上的标签很“精英”:2022级复旦大学MBA新生、公益奖学金获得者,入选2019福布斯中国、2020福布斯亚洲“30位30岁以下精英榜”。但与此同时,他从11岁开始因病失去听力,直至16年后才有机会植入人工耳蜗。这样的双重身份,让他天然对科技如何助力人们的生活而感兴趣。23岁那年,石城川创立了音书科技,决心帮助听障人士更好地感受世界。

图片

以下是南都记者与他的对话。

01

因病失去听力,开发音书App帮助听障群体沟通

南都:方便介绍一下你是如何失去听力和之后的求学经历吗?

石城川:我11岁那年生了一场病,病历本上显示“化脓性脑膜炎”。在医院住了一星期,刚开始还能依稀听得到医生护士说话,后来渐渐地就听不到了。起初并不很难过,可能还是孩子吧,不知道这意味着什么。

生病导致失聪后,我的父母一开始希望把我送到特殊教育学校,但是因为我的家乡整个县都没有这样的学校,所以我只能回到原来就读的乡村小学。一开始他们还很担心我的学习,但是没想到回到学校之后,我的学习反而比以前更好。从前我很贪玩,但失聪之后,没法像以前一样跟小朋友们玩耍,所以我把所有时间精力都用在学习上,很专注又很刻苦,成绩也就越来越好。

我所在的学校是西南一个比较偏远的地区,那个时候在课堂上几乎没有任何辅助设施可以帮我,所以我完全听不见老师讲课,只能看板书、教材和同学的笔记。老师们也很关照我,从小学、初中到高中,我总是固定坐在第一排中间以方便看板书,有时候老师们也会给我进行单独辅导。

唯一有难度的是英语课,因为我是在听不见之后才接触英语的,用拼音的方式学习音标,和真正的发声有很大区别,后来尽管我会读会写,但至今没法很好地用口语来表达。

其他科目因为一开始有很好的基础,后来学起来很顺畅,几乎没有遇到任何困难。

直到27岁的时候我才植入了一个人工耳蜗,最主要是因为经济原因。因为现在人工耳蜗非常昂贵,进口的产品便宜的通常也要十几万,贵的可能要三十多万。国产的价格相比低一些,但也要七八万或者十来万。当时为了给我治病,家里已经负债累累了,根本没有条件购买,后来我是通过一个公益基金会的资助才植入了人工耳蜗。


南都:大学之后,为什么会选择研究人工智能呢?

石城川:我在高中基本上就已经确定了未来的方向,希望能够通过科技帮助听障群体沟通,所以从那时起就有针对性地学习,未来计划研究生物化学遗传相关的这些课题,然后能找到治疗或者改善耳聋的技术或药物。

高考后,我填报的专业是应用化学,进入了化学系,但学化学需要做实验,有的实验又必须依靠声音去判断实验效果,老师们认为我做这类化学实验太危险了,建议把我的专业换成应用数学。

之后我进入了暨南大学数学系,正好当时人工智能技术发展得特别迅猛,我认为这项技术一定可以给我们听障群体的沟通交流,带来很多帮助,所以开始研究人工智能。

尽管最初我想学习生物化学,后来又转入数学系,所从事的技术方向和我最初预想的不一样,但是最终目的都是一致的,即为了帮助听障群体解决沟通障碍,让他们可以更好地融入社会、无障碍地学习生活。

 

南都:可以介绍一下你牵头开发的音书App吗?

石城川:2012年,谷歌开发了谷歌眼镜,在知道它的基本原理后,我的第一个想法是将这种智能眼镜和语音技术结合起来,专门给听障群体去设计一款智能眼镜,通过人工智能技术语音识别技术把别人说话的声音翻译成文字,再显示在它的虚拟屏幕上。

由于当时整个智能眼镜的供应链和产业链还不完善,尽管我们开发出了产品原型,也申请到了相应专利,但是这个产品最终并没有推向市场。可是这让我们意识到,人工智能技术将有非常广泛的应用场景,即便在帮助听障人士沟通这个细分领域里,可以做的事情也非常多。

创办音书的想法也产生在这个时候。我们认为,虽然没有办法在智能眼镜上实现语音转文字的需求,但可以在手机App上实现,所以我们就开发出了音书App。音书最初只有一个功能,就是把声音转化成文字,但是到现在它的功能已经很丰富了,比如还有语音训练的功能。这项功能是免费的,每个用户都可以使用。

以前有一个说法叫做“十聋九哑”,因为听力障碍跟语言障碍是强相关的,如果听不见,你几乎就没有办法学习说话。但是现在不一样了,我们有语言康复这样的技术,在听障人士学习说话的时候,可以由算法来帮助我们判断自己的发声准不准确,是声母不准确、韵母不准确,还是声调不准确。

只要通过这种方式长期坚持训练,听障人士也可以慢慢地把自己的普通话学得越来越好,当然这个过程非常漫长,不是一两个月就能实现的。

 

南都:随着人工智能技术的发展,语音文字转换的功能越来越常见,音书App是否针对听障人士做了特别的设计

石城川:听障人士的需求是非常场景化和细化的,这些都需要人工智能技术的介入来实现。比如有很多听障的夫妻,他们的孩子能听到声音,这种情况下,这些听障的父母非常渴望能够通过声音来和孩子交流。

我们的文字转语音的功能就可以解决他们的痛点需求,并且我们网易合作开发了一项音色还原的技术,让这些听障的父母录一段声音,哪怕他没有办法说出流畅的话(不管是什么样的声音都可以),然后通过我们音色还原的技术,就可以把他们的音色提取出来。这些父母跟孩子交流时,就可以用手机输入文字,然后再转化成声音播放出来。而且所播放的声音不是一个机器人的声音,它跟真人的声音很相似。

02

人工智能发展应注重包容性设计

南都:音书App下一步的规划是什么?

石城川:我们现在更多在做的是To B和To G的业务。

今年9月《无障碍环境建设法》正式施行,公共服务机构都需要提供无障碍服务。我们也开发了一套政务无障碍系统,帮助各类公共服务机构做信息无障碍建设。目前在广州市行政服务大厅、肇庆市高新区行政服务大厅都有使用。可以帮助公共服务机构的工作人员和前来办理业务的听障人士顺畅交流。

在国内特殊教育学校里,听障学生以前就只能通过老师的手语来学习,但是单纯手语教学的效率比较低——因为一些专业的术语、抽象的逻辑很难通过手语准确无误表达出来。

为此,我们专门开发了一套音书字幕系统用于特殊教育学校,它的逻辑也很直接。老师上课的时候佩戴一个麦克风,一边说话一边打手语,所说的话会变成字幕在投影仪上显示出来,如此一来就可以帮助学生更加精确地理解课堂信息。

这套教学字幕系统,现在全国也有接近100个特殊教育学校在使用,大部分是我们联合多家公益机构捐赠给的。比如说像浙江省残疾人福利基金会、北京接力公益基金会、广东省青少年发展基金会、深圳市社会公益基金会等等。

但对我们来说,联合公益机构去给学校捐赠这套系统,的确也是一个非常大的压力。因为开发运营和维护的成本非常高,所以我们也希望政府能够更加重视特殊教育的发展,投入更多的资源去支持特殊教育,这样我们的事业才能更可持续发展。

 

南都:有人认为人工智能会拉大不同人群间的技术鸿沟,你怎么看待这个观点?

石城川:其实应该要辩证地看待,比如说像微信这样的App出现了,它是不是拉大了残障群体和普通人之间的数字鸿沟?如果微信没有进行包容性设计,让视力障碍群体无法使用微信,那么这显然是拉大了数字鸿沟。

但是事实上,微信有这样的包容性设计,也给视力障碍群体带来了很大的帮助。我有很多的视障朋友,他们用微信发文字、发表情,跟普通人没有什么差异。

同理,到了大语言模型时代也是一样的。我们正在关注手语识别的方向,希望通过人工智能去分析听障人士的手语,然后把它转化成文字或者声音。我相信随着技术的进一步发展,也许在不久的将来,这项技术会变得非常成熟。在这个时候,即使听障人士不会说话也不会写字,但他通过手语也能够跟别人顺畅交流。

毫无疑问,大语言模型和其他人工智能技术肯定能够给残障群体等,带来极大便利,但前提是要有人利用这些技术来帮助他们,进行相关包容性设计、做无障碍推广和发展。

 

 

采写:南都记者 胡耕硕

出品:南都数字经济治理研究中心

编辑:李玲

更多报道请看专题:世界互联网大会乌镇十年之约

南都新闻,未经授权不得转载。授权联系方式
banquan@nandu.cc. 020-87006626
3