数据确权难？训练AI孙燕姿有版权风险？专访北大教授易继明

南方都市报APP • 反垄断前沿

原创2023-06-07 17:57

日前，数据知识产权地方试点迎来一项最新成果。5月30日上午，2023中关村论坛“全球知识产权保护与创新”分论坛在京举行，论坛上正式发布《北京市数据知识产权登记管理办法（试行）》。

在北京大学国际知识产权研究中心主任、北京市法学会常务理事易继明看来，数据是促进数字经济发展的血液，但当前仍面临数据权属不清的瓶颈。以数据知识产权登记为基础，将数据集合作为保护客体，找到了解决数据权利界定问题的着眼点。

近日，围绕数据权属的解决方案、AI孙燕姿背后的版权风险，以及AIGC可版权化的矛盾争议等热点话题，南都记者专访了易继明教授。

谈数据知识产权：有了凭证，企业数据交易时心里有数

南都：数据好比数字经济发展的血液。为促进数据流动，从中央层面到地方相继推出促进数字经济产业发展的政策，包括成立数据交易平台等等。您怎么看待这些政策举措的出台，要落到实处的关键是什么？

易继明：这些政策举措背后的指导思想毫无疑问是正确的，但其瓶颈在于数据权利的界定。

去年年底中共中央、国务院出台的“数据二十条”，试图通过对数据资源持有权、数据加工使用权和数据产品经营权进行“三权分置”的方式，构建数据产权制度的基本框架。这是以促进数据使用与流通为目的，淡化数据所有权，强调对数据的使用。

但是仔细推敲的话，数据资源的持有权到底应归谁所有？我举个例子，太阳和月亮的运行规律，地球山川植被动物等资源状况，这些均可以被数据化，可是其中并不存在一个持有主体。因此我认为，数据资源谈不上谁持有的问题。当然如果对数据进行加工、收集后可以拥有权利，且有权交由别人使用，但所有权是谁的，它和使用权应该区分开。

至于数据产品经营权，则指向的是生产经营，这不是一个严格意义上的法律概念。所以我认为，这种“三权分置”的数据确权思路，不但没有从财产权的制度构造出发去解决相应的问题，甚至有可能会引发新的疑问与乱象。

南都：由于数据与知识产权具有相似之处，一些观点主张将数据纳入知识产权法律的保护框架。部分地方也开始试点，探索数据知识产权工作。比如最近《北京市数据知识产权登记管理办法（试行）》正式出台，并将于6月19日实施。通过发放数据知识产权登记证书，有助于解决什么实际问题？

易继明：我觉得这是一次很好的尝试。

这份《管理办法》明确，“数据知识产权的登记对象，是经过一定规则或算法处理的、具有商业价值及智力成果属性的处于未公开状态的数据集合”。

把数据集合作为保护的客体，无疑找到了解决数据权利背后本质问题的着眼点。以数据担保凭证为例，在将被担保的相应数据集合进行官方登记之后，我们就能知道所担保、所使用和所交易的内容是什么，因为经过登记之后数据集合就会存在一个相对稳定的边界。

此外，从理论上来看，设置上述登记制度也能够对公示公信问题的解决起到一定裨益。因为这样一来，企业在进行数据交易时彼此都能做到心里有数，经过备案的数据交易协议还可以对抗外部的第三人。如果第三人侵犯了他人的数据知识产权，权利人同样可以凭借相应的权利凭证来主张权利，进而获得更高水平的保护。

南都：数据通过知识产权保护就够了吗？

易继明：当前世界各国就如何对数据予以保护的问题形成了三种解决方案：

第一种是借鉴著作权法的制度设计对结构化数据进行保护。例如欧盟1996年颁布的《数据库保护指令》就曾明确，经过系统或有序编排，并可以通过电子或者其他手段单独加以获取的作品、数据或其他材料的集合，无论是否受版权保护，其均能在《指令》下获得“特别权利”的保护。这样的制度构造所面临的现实问题是：此种模式只能适用于对结构化数据的保护。但在实践当中，很多数据库的形成并非依赖结构化的贡献和投入，而是在不可计数的流动与变迁之后所日益沉淀下来的。那么，对这类非结构化的数据该如何进行保护？

第二种方案着眼于对具体行为的规范，比如通过反不正当竞争法，将数据作为商业秘密加以保护，防止他人侵权。但这样一来所谓的“数据权利”就变成了一种消极的权利，与其积极权利的应然构造方向并不相符。

第三种方案主张单独创设所谓的“数据权”或者称数据信息权，使其成为一种新的财产类型，与物权、知识产权平行。对此，我并不赞同——因为此种方案所需的制度成本畸高。我认为，数据和知识产权之间具有很多的共通点：二者的客体都是无形物，均凝结了创造者的智慧与个性化贡献。这样看来，在知识产权的制度框架下为数据创设一种类似于专利权的新型知识产权，或许是更好的模式选择。

中国的数据资源及其应用场景可谓非常丰富。如果我们能率先为数据创造出一种具备积极属性的知识产权类型，相信必将有利于我国后续更加从容且自信地参与国际竞争，并以制度的先进性吸引全球的数据运营企业将资源更多朝中国布局，从而促进我国数字经济的长足发展。

谈AI孙燕姿：训练“喂养”资料，是否受版权保护？

南都：说起近期华语乐坛的顶流，AI孙燕姿或许占有一席之地。通过模型训练和后期处理，网友们用AI孙燕姿的声音重新演绎一众热门金曲。如果要进行AI翻唱行为，需要征得谁的授权？

易继明：训练AI孙燕姿，需要提取孙燕姿本人的原始声音，并标注她演唱的方法或换气技巧等特征。这需要征求孙燕姿本人的同意。此外，一首歌的词曲作者对于其创作的词和曲毫无疑问是享有版权的，如果要进行AI翻唱的话，通常也应当获得他们的授权。

南都：即便在AI训练和“喂养”阶段，也需要逐一获得授权吗？

易继明：这一问题目前是有争议的。

一种观点认为，这属于机器学习、研发创新的阶段，对作品的利用方式也只是在实验室内对机器进行训练而已，并未将作品向公众传播，所以应当秉持版权开放、自由利用的态度。

另一种观点则相对保守——因为训练AI孙燕姿，可能是基于潜在的商业需求，为此应当获得逐一权利人授权并支付一定的费用。但如果这样的话，创新的成本似乎就太大了。因为训练“AI孙燕姿”毫无疑问需要无数的养料投入，“喂养”大量的数据和样本，如此才能让模型能够诠释不同的音乐作品，甚至跨越性别和语言上的障碍。要是每使用一件作品都要去跟相应的权利人开展谈判并争取授权，很难想象此种商业模式如何能够保持旺盛的生命力。

既然当前潜在的法律风险和制度障碍为该产业的发展平增了畸高的交易成本，为了给该产业的后续进步创造良好的生存空间，我们的法律是否应该为此而适度松绑，值得思考。

南都：面对新业态新模式，如何更好地解决产业发展和权利保护之间的冲突问题？

易继明：我认为需要找一个节点，区分产业发展的初期和稳定期。在初期阶段，科技创新应该被置于一个更加重要的位置。从这个角度上来说，我个人认为，在AI“喂养”的问题上，只要“喂养”后的成果没有对外传播，此种行为就应当可以为法律所豁免。待到产业发展起来了，成果传播所获取的经济回报足以负担版权利用的成本支出时，再谈如何保护，可能是更好的方式。

谈AIGC可版权化：版权主体必须是自然人的观点已被打破

南都：随着通用大模型的广泛应用，关于人工智能生成内容（AIGC）可否受版权保护，也有很多讨论。一些观点认为，机器不是人，按现有版权法规定，AI不符合版权主体，所生成的内容自然不受版权保护。您怎么看？

易继明：持有这类观点的人，很多是受到发生在美国的一桩“猴子自拍照片版权案”的影响。这说的是一位摄影师在拍摄时，相机被一只猴子夺去，猴子用相机给自己照了自拍。后来这位摄影师因为涉嫌侵犯这只猴子自拍照的版权被人告到法院。美国法院最后对此给出的观点是：猴子不是人，版权保护不能适用于猴子。于是很多人将此案的判决结果类推到机器上，认为既然动物都不能享有版权，机器自然更不能了。

但是我认为，强调版权主体是自然人的观点，本身已经被修正了。比如公司法人也可以享有著作权——有一家电影公司组织一群人进行创作，通过合同约定最终拍出的电影版权归属于该公司，这是很常见的。

在我看来，法律是构造的。当我们在谈版权保护时，需要保护的到底是什么呢？我认为是保护文艺创作里的创新，就好比专利权保护的是科技领域的创新。只要有客观的贡献和创新，我认为就应当获得保护。如果AI创作的东西不受保护，那么“天下一大抄”，没人搞创新了，社会的整体创作水平也就无法提高。

南都：如果AIGC可版权化，那谁享有权利？

易继明：关于权利归属的问题，我认为首先应以有关协议约定的内容为准。如果协议对此并未作出约定的话，可以找最近的主体。

举个例子，我们同样使用A公司生产研发的通用机器人，毫无疑问A公司最先设计出这一通用机器人的编程程序，从而享有相应的权利。但是当我们把通用机器人买回来后，各自展开训练，如果我们都未和A公司就其所生成的内容作出版权归属的约定的话，该内容上所承载的版权便应当由我们各自，也就是主导该内容生成过程的主体所享有：毕竟在训练的过程当中，我们各自“喂养”的内容和训练方法会有所差异，进而有可能创造出一些独具个性化色彩与显著区别特征的表达。

当然我们也有义务在这些生成内容上标注：哪些部分是由机器自主生成的，哪些部分属于人的创作成果。

采写：南都记者李玲

编辑：李玲

更多报道请看专题：直击中关村论坛，现场体验硬核科技