为维权我要反向模仿AI:举证难标准缺,盗声困境如何解?

南都N视频APP · 南都娱乐
原创2026-03-31 09:52

两年前,谢添天发现自己的声音被一款APP“盗”走——用户输入文本,即可用他的音色生成以假乱真的AI声音。维权半年,因举证难度太高,最终以和解和对方致歉了结。

两年后,一场大规模的联合发声,将AI盗声侵权的乱象彻底推到了公众视野。数十名知名配音演员、头部配音公司于近期发出严正声明,反对未经授权,擅自采集其声音素材用于AI训练、音色合成及商业变现的行为。作为知名配音演员及头部配音公司音熊联萌的CEO,谢添天也加入了这场“声音保卫战”。

近日,南都记者独家专访谢添天及其当时维权的代理律师谢佳佳,从他们的亲身经历一窥维权的艰难,并采访法律人士及语音生成技术专家,试图追问——发声了,然后呢?

图片

A

被盗的声音:

从配音演员到名人,AI盗声乱象频发

谢添天第一次发现自己的声音被盗用,源自一名新人配音演员向他求助——他配过的角色,被篡改为相似的名字,堂而皇之地放在一款未经授权的APP里,任何人输入文字,就能生成这个角色的语音——这让他觉得很不舒服。

“我们点进去一看,结果发现不止他一个人。”谢添天回忆,那款APP里列出了一连串角色名字,包括他自己,同公司的夏磊、柯暮卿,还有不少知名配音演员配过的角色,“基本上有些流量的角色都在里面,只是改了一个近似原版的名字”。

这些用AI合成的声音,直接截取演员过往作品的语音训练而成,和角色原声高度相似。“不仔细听的话,我也需要反应一下:我说过这句话吗?采样足够多的话,AI确实能做到以假乱真。”

听着AI克隆自己的音色,说着自己从未说过的话,谢添天有一种“微妙的感觉”。一方面“有一种自己演绎的角色得到了认可”的黑色幽默感,但更多的是“对未知的恐惧”。“音色是配音演员立命的根本之一,当你特有的一大杀手锏能被别人擅自使用的时候,会对前途如何有些迷茫和恐惧。”

在3月这场集体发声中,众多配音演员的发文也在诉说着这样的恐惧,以及愤怒。知名配音演员史泽鲲在社交平台表示,就AI盗用声音侵权一事已委托律所正式发起诉讼,并附上举报邮箱。“本人不授权任何AI使用我声音进行模型训练以及AI作品。法庭见。”他还在个人账号的简介栏自嘲般写道:“代表作《各种偷我声音生成的动漫》。”透露着抗议与无奈。

图片

谢添天及其公司在社交平台发声。

图片

部分配音演员的发文。

除了配音演员,AI盗声现象早已蔓延至范围更广的名人群体。早在2023年,一批复刻孙燕姿、周杰伦等知名歌手音色的AI翻唱歌曲已引发讨论。2024年,“雷军AI配音”被大量用于恶搞、谩骂视频,短视频平台相关播放量高达1.2亿次。今年2月,杨幂方披露AI伪造声音侵权案胜诉细节,被告未经授权,利用AI合成与杨幂音色、语调、发音风格高度一致的声音。

就在此次配音演员集体发声不久后,霍启刚也发长文讲述自己深受AI盗声、盗样貌的困扰,“事实上,过去半年随着AI技术的普及,这类情况越来越夸张,至今我已经处理了几千条相关的假内容,还要安排同事专职跟进,每天都要投诉反馈,但是每天依然有非常大量类似的新发布。”

图片

霍启刚近期发文。

一边是知名人士深受AI盗声乱象侵扰,另一边则是AI克隆声音服务和软件的易得。南都记者在某电商平台搜索关键词,出现数十条以复刻声音、声音克隆为名的售卖链接,售价可低至5至10元,卖家声称只需提供5至15秒人声音频,生成语音的相似度可达95%以上。

1290x722_69ca457d9ea8a.jpg?X-Amz-Content

1290x1286_69ca457ddd936.jpg?X-Amz-Conten

AI盗声侵权现象不仅发生在内娱,相似的困境也蔓延至全球多个国家和地区。今年2月,中国香港配音从业员工会连同近90名配音员发出联合声明,未经同意不得以任何形式录制、收集、使用、修改、编辑或复制声明人之声音样本,作为生成式人工智能训练、模拟、语音合成。同样在今年2月,数百名德国配音演员集体拒签要求其同意将录音用于AI训练的合约。2024年,日本26名配音演员发起“NOMORE 擅自生成AI”行动,对近年未经授权利用其声音训练AI模型的情况表达抗议。

B

维权有多难:

为了举证,人要反向模仿AI模仿自己的声音

AI盗声侵权现象频发且门槛极低,维权却举步维艰。多位受访者表示,维权过程中面临的举证难、法律适用标准不统一、溯源难等现实问题,是许多被侵权者共同的无奈。

即便像谢添天这样具有行业影响力的配音演员,也在维权进行半年之后,选择与侵权方和解,仅要求对方公开致歉和象征性赔偿。“一方面,考虑对方是创业大学生不容易,初衷可能也没有恶意。”然而谢添天也坦言,“另一方面,当时我们跟律师团队多方了解,法律对AI盗声的事实认定门槛非常高,这件事如果拖很久且没有更好的结果,不如尽快了结,也为行业提供一次借鉴。”

举证难度之大是横亘在维权之路上的首要难题。相比起可看见的具象化的“脸”,“声音”的比对更为抽象。上海融力天闻律师事务所杭州办公室主任、高级合伙人杨阳是近期判决的全国首例动漫配音AI化不正当竞争纠纷案原告方代理律师,他代表知名动漫角色所属公司在该案件中获得胜诉。他向南都记者指出,目前的认定难点主要在于声音的比对,“因为声音不像正常的文字、图片或视频作品,有具象化的表现形式,可以比较直观地进行比对判断。专业的司法鉴定包括了频谱、声纹分析、声学特征比对等一系列流程。”

上海至合律师事务所律师谢佳佳全程参与了谢添天的维权,她对南都记者表示,AI合成声音并非直接使用原声音片段,而是通过对声音样本数据处理后新生成声音,这一AI化的过程会使声音的声学特征发生转变,导致鉴定结果不准确。

于是,为了证明AI合成的声音盗用自本人,一件颇具荒诞感的事情发生了:谢添天要反过来模仿AI模仿自己的声音。他解释,法院通常要求对同一句话进行比对,然而由于配音演员在不同角色、不同剧情中会使用不同状态的声音,且人的声音会随着年岁增长而变化,“我不知道侵权方给AI学习的样本来自我的哪个角色、哪个时期、哪种情绪的声音,只能靠猜,然后我再要还原自己当时的那个声音状态,讲出AI生成的内容。”有时,他甚至还要用不同状态录制好几个版本,从而找出最像AI模仿自己的那一版。举证的繁琐,由此可见一斑。

然而,即使“听上去像”,也未必能找到权威的鉴定机构出具详细的报告。谢佳佳告诉南都记者,由于AI仿声仍是一项新技术,目前市面上能够为此背书的权威鉴定机构不多。“我们去沟通了这样的机构,但它能给出的鉴定结果也非常粗放,对于两个声音是否指向同一人,它只能给出‘是、不是、不确定’三种判断,而无法提供相似度的比例。”

由此引申出的第二个维权难点,便是现行法律的适用问题。2024年4月,全国首例AI生成声音人格权侵权案一审宣判,明确认定在具备可识别性的前提下,自然人声音权益的保护范围可及于AI生成声音,原告配音演员获赔25万元。2024年12月,在另一例配音演员诉语音合成APP侵权案件中,法院则驳回了原告的全部诉讼请求。

谢佳佳指出,虽然《民法典》明确参照适用肖像权的规则保护自然人的声音,但在执行层面上,声音具有“可识别性”的判断标准、声纹比对的相似程度、比对平台的权威性等差异,均是可能导致法院裁判不一致的因素。

此外,溯源难、维权成本高而收益低的反差,也让很多被侵权者望而却步。“可能隔两三个月又会发现一家,而且你也不知道它背后是同一家换了皮,还是不同家,有一种很无力的感觉。”谢添天说。谢佳佳也指出,“侵权方用AI轻易就能生成声音,就算被发现,侵权内容说下架就下架;而维权方往往需要投入大量的人力物力,也不一定能抓到它。”

还有一类鲜被公开谈及的原因是保密协议的要求。谢添天透露,不少商业价值高的影视和游戏项目,均要求配音演员严格保密角色配音者,“这意味着配音演员一旦维权,某种程度上就等于泄密,因此只能由角色所属公司去起诉。”然而,部分甲方不愿介入或持观望态度,导致配音演员维权陷入两难。

C

技术视角:

侵权治理技术基本可行但标准不足

香港中文大学(深圳)人工智能与机器人硕士项目主任,国家级青年人才,安菲翁科技创始人武执政是语音交互、语音生成、音频鉴伪领域的专家,他向南都记者详解AI音色克隆的技术原理、在文娱领域的滥用原因及治理建议,为声音权益保护提供了技术层面的思考。

武执政介绍,AI克隆音色涉及语音生成技术,AI通过语音表征学习+声音合成模型,把一个人的声音特征(音色、语气、节奏等)抽取出来,再用这些特征去生成新的语音内容。通常AI利用互联网上数十万小时数据进行学习。

谈及该项技术在文娱领域被滥用导致侵权频发的现象,武执政分析,从技术本身来看,音色克隆并不区分应用场景,但在文娱领域,它与“角色IP、情感表达和商业价值”高度绑定,是直接作用于“声音即IP”的核心资产,因此更容易被放大,也更容易被滥用。“当技术门槛迅速下降、商业激励持续放大,而规则体系尚未完全建立时,滥用现象的集中出现,其实是一个阶段性的必然结果。”

那么,除了商业上的原因,就当前AI语音大模型的训练情况而言,学习名人或具有强辨识度的声音是必要的吗?若将这样的声音排除,是否会导致训练样本缩水,从而造成技术停滞?

武执政解释,从技术角度来看,AI语音大模型的训练并不依赖于某一个具体名人或角色IP的声音,模型真正需要的是多样化的语音分布与声学规律,而不是特定个体本身。因此,学习名人或具有强辨识度的声音,并不是技术发展的“必要条件”。相反,大规模的通用语音数据、合成数据以及经过授权的专业语料,已经足以支撑当前高水平语音模型的训练。从这个意义上说,将“必须使用名人声音”与“技术能否进步”直接挂钩,其实是一种误解。

“但另一方面,我们也需要承认,具有鲜明特征的声音在应用层具有更高的商业价值和用户吸引力,这也是为什么相关争议会集中在文娱领域。因此,问题的关键不在于‘能不能学’,而在于‘如何合规地用’。”

在过去,武执政带领团队突破了语音低帧率编码、一句话声音克隆等技术难题,实现了高效零样本高保真语音克隆,研究成果已赋能全球千家单位,同时他也在推进语音安全的研究。对于多名配音演员反映的取证难、溯源难问题,武执政表示,当前针对AI音色克隆侵权的治理,虽然在技术层面已经具备了一定基础,例如音频水印、声纹识别、生成检测等手段,可以在事前防范和事后溯源中发挥作用,但整体仍处于“技术基本可行、但标准不足”的阶段

他指出,一方面,不同技术方案之间缺乏统一规范,检测结果难以直接转化为法律认定;另一方面,音色本身具有一定的可变性与主观感知属性,使得“高度相似”的界定天然存在模糊空间。因此,未来真正的突破不只是依赖模型或检测技术的提升,更关键在于建立跨技术、平台与法律的协同体系,包括明确相似性判定标准、强化平台侧责任以及完善司法认定机制,从而在保护创新的同时,更有效地保障声音权利不被滥用。

D

声音“保卫战”:

技术狂奔时,我们可以做什么?

集体发声不是终点,如何规范AI仿声技术在文娱领域的使用,保护声音权益,成为亟待解决的问题。

在个体层面,配音演员应提高权利意识,积极采取措施保护自己的声音。谢佳佳建议,对于不知名的配音演员,要正视自己声音的价值,签合同时避免稀里糊涂“一揽子”转让声音权益;发现侵权时可采用时间戳等低成本方式固定证据,并积极加入行业组织,借助集体力量维权。对于相对更有社会声量的成熟配音演员,则可对声音资产进行固定,例如保存录音干音、申请著作权登记,日常做好侵权监测,甚至参与行业规则和标准的制定。

在行业层面,需加快制定合规标准,给予行业合规指引。谢添天认为,配音行业并非排斥AI,而是反对毫无边界、毫无章法的滥用。“我们拥抱新技术,但必须报价对等、用途清晰、边界明确、规则细化。”

谢佳佳则注意到,有些配音演员不知道合同该如何写,“是否可以推动有关部门或行业组织出一些示范性的合同文本,让一些没有常规法律服务的配音演员可以使用。”

在司法层面,需进一步完善相关举措,优化维权机制。杨阳表示,我国已有《民法典》《互联网信息服务深度合成管理规定》《人工智能生成合成内容标识办法》等法律法规,对声音权益和AI技术使用进行规范。落地上,他建议可参考互联网网站、软件的备案制度,对AI仿声工具进行备案,形成算法数据库,有助于声音比对和分析。同时,规范AI训练和输出中对于个人声音数据的使用,将个人声音纳入敏感个人信息,提升对其的源头性保护。

谢佳佳提出,应优化举证责任分配。“我们依旧面对着如何证明对方用了我们的声音这一难题。当原告尽了初步举证的义务,希望举证责任可以放到被告身上,要求被告打开‘技术黑箱’,披露声音样本来源、算法权重等信息。”此外,她呼吁提高侵权成本,在特定情况下适用惩罚性赔偿,形成震慑效果。

在技术层面,引入安全约束与建立防线,明确技术开发者与平台方的责任边界。武执政认为,音色克隆本身是一项中性的技术,但当它具备“低门槛、高相似度、可规模化复制”的能力后,技术开发者需要在模型设计阶段就引入安全约束,例如对高风险人物音色进行识别与限制、为生成内容嵌入可检测的水印、以及对训练数据来源进行合规管理,避免“技术先行、责任滞后”。

而平台方作为连接技术与用户的关键环节,更应承担第一道防线的责任,包括建立内容审核与拦截机制、完善用户实名与用途约束、保留必要的调用日志以支持溯源,以及在发现侵权行为时具备快速下架与响应能力。

“更重要的是,这类问题本质上不能仅依赖单一主体解决,而需要形成‘技术开发者-平台-法律监管’之间的协同治理机制。只有当模型本身具备可控性、平台具备治理能力、法律具备清晰边界,才能在推动语音AI产业发展的同时,有效保护个人声音权利,避免技术被系统性滥用。”

武执政强调,规范的建立并不会抑制技术进步,反而有助于建立长期健康的产业生态。他认为,可以从三个层面把握技术创新与权利保护的平衡:第一,在训练阶段,应强化数据来源的合规性,优先使用授权数据、合成数据或去标识化的数据集;第二,在生成阶段,应对特定公众人物或角色音色设置明确的使用边界,例如通过平台策略避免高相似度复现;第三,在应用阶段,应建立清晰的授权与收益分配机制,让声音的使用从“被动被复制”转向“可控、可交易的数字资产”。

当技术狂奔,其中涌现的新现象、新问题需要更多地被看见与讨论。谢添天相信,这场集体发声总有意义。“行业的发声可以加速厘清边界在哪里,推动规则建立,这总是好的。”

采写:南都N视频记者 钟欣

南都N视频,未经授权不得转载、授权联系方式
banquan@nandu.cc. 020-87006626