AI训练数据不用担心版权问题？日本政府表态引发热议

南都N视频APP · AI前哨站

原创2023-06-02 19:53

生成式AI爆火的现在，其背后模型用以训练的信息数据的版权问题一直是人们关注的焦点——到底怎样才算合法的训练数据？是否会在无意间侵犯他人版权？

对此，有外媒称，日本的政府人工智能战略委员会于5月26日提交了一份草案，表示不会强制人工智能训练中使用的数据符合版权法。而日本文部科学（相当于国内教育部）大臣永冈桂子在当地会议上证实了这一消息，称日本的法律不保护AI训练所用资料的版权。

永冈桂子图源日本“文部科学省”官网

具体在4月24日，日本众议院定居点管理监督委员会第二小组委员会上，日本的一位名叫纪伊隆的议员与永冈桂子进行了直接讨论。

根据纪伊隆在会后整理的问答可以看到，永冈桂子在谈到日本关于使用AI进行信息分析的法律制度（版权法）时，表示“在日本，无论使用何种方法，无论是出于营利或非营利目的，无论用于复制以外的行为，还是从非法网站获得的内容，都可以使用信息分析作品。”

此外，两人也谈到了在学校使用ChatGPT等人工智能聊天机器人的教育指导方针。据外媒报道，该技术或工具最早将于2024年3月被日本教育系统采用。对此，永冈桂子并没有给出具体的时间，只是表示会“尽快”回复。

此事引起了极其广泛的讨论。AI三巨头之一，Meta首席科学家杨立昆（Yann LeCun）就发推表示：

日本已经成为机器学习的天堂。

但有网友指责他不应该将“能够窃取知识版权而不受影响”称之为“天堂”，杨立昆则在评论下方回复道：构成知识产权“财产”的本质是由政府定义和执行的。它也受到政府的限制。驱动原则是最大化公共利益，而不是最大化内容所有者的权利。

事实上，围绕AI训练资料是否应得到版权保护这一点，网友们展开了激烈的讨论。有人赞同日本大臣的这一立场，并提出，一批待训练的图像数据一定会经过层层处理，最终转换成为AI模型或者计算机能看懂的数据、代码或其他电子格式。也就是说，模型训练所使用的数据基本上都高度有损，因此，即使在最坏的情况下也只是在用“派生作品”，这当然是合理使用。只有当模型抄袭受版权保护的代码、制作版权图像的图像或者复制书籍，最后再分发输出，这才算是侵权。

对此，马上有人反对：无论是否有损，训练数据都提供了价值。如果各种各样的人没有花时间制作所有最终成为训练数据的东西，那么它训练的模型就不会存在。

还有网友提出，争论版权问题没有意义，人类总是通过研究已经存在、曾经发布过的东西来不断学习进化，所以更重要的是从监管层面讨论如何更便捷合理地使用、分享或组织控制这些“共享信息”。

采写：南都记者杨博雯

编辑：李玲

南都N视频，未经授权不得转载、授权联系方式
banquan@nandu.cc. 020-87006626

本文作者

李玲

南方都市报记者