每日速递：是剽窃还是创作？ChatGPT背后隐藏知识产权风险

2023-02-21 10:19:32 来源:中国青年报

自从去年11月由OpenAI公司推出的聊天机器人ChatGPT面世以来，在人们惊叹于其信息搜索和文本生成能力的同时，关于其背后知识产权的质疑声也随之而来。

国际知名语言学家乔姆斯基此前曾公开发声表示，ChatGPT是一个高科技剽窃系统，从海量数据中发现规律，并依照规则将数据串联在一起，形成像人写的文章和内容。对于这说法，也有反对者提出，人类的学习也是从现有知识中进行继承、分析然后规律化的过程，其真正威胁是让人类不去思考。

人工智能创作作品是否涉嫌剽窃？其生成内容是否受到版权保护？是否存在法律风险？ChatGPT的火爆将这些问题推进人们的视野。

(相关资料图)

AIGC是否存在侵权风险

作为一个自然语言处理系统，ChatGPT通过大量文本语料库进行训练，然后根据它所学到的内容来回答问题或生成文本，其学习的能力很大程度上依赖于海量数据。

OpenAI在2020年5月发表的名为《Language Models Are Few-Shot Learners》的论文显示，该公司主要使用来自CommonCrawl、WebText、维基百科和书籍语料库进行训练。

使用这些数据是否存在侵权风险？中国信通院云计算与大数据研究所所长何宝宏认为，没有约束地使用ChatGPT可能会引发知识产权的纠纷。“ChatGPT的开发者没有公开生成合成的运行机制以及训练数据的来源，在用户引导问答的过程中，ChatGPT的回答缺失对于来源的引用，这样有可能在用户未注明来源对生成内容进行使用时造成剽窃。”

北京盈科(杭州)律师事务所律师方超强则表示，AI训练过程中不可避免地会涉及对他人享有著作权的作品进行复制使用，存在一定著作权侵权的风险。“当然这一风险也可以进行规避，例如使用不享有著作权的公开作品资源，或者经过授权的文字作品。”

他还指出，如果AI生产的文字作品与已存在的文字作品构成实质性相似，那么其创作或者后续对AI文字作品的使用，都会有侵害已存在文字作品的风险。

公开报道显示，目前已有国外新闻媒体指责OpenAI在不支付任何费用的情况下使用他们的文章来训练ChatGPT。

此前，《华尔街日报》记者Francesco Marconi在网上公开表示，他向ChatGPT索取了一份用来训练它的新闻来源清单，收到的回复列出了包括路透社、《纽约时报》、《卫报》、BBC新闻等20家媒体，但并不清楚OpenAI是否与所列出版商都达成了协议。

全球最大的媒体集团之一新闻集团(News Corp。)旗下道琼斯公司的法律总顾问Jason Conti日前也在提供给媒体的一份声明中称，任何想使用《华尔街日报》记者的作品来训练人工智能的人，都应该从道琼斯获得适当的授权，但“道琼斯没有与OpenAI达成相关的协议”。他表示，道琼斯公司正在对该情况进行审查，并将严肃对待滥用记者作品的行为。

在北京大成律师事务所合伙人肖飒看来，这其实涉及“文本数据挖掘”是否需要相应的知识产权授权的问题。ChatGPT需要对语料库中的数据进行挖掘和训练，将语料库中的内容复制到自己的数据库中，相应的行为通常在自然语言处理领域被称为“文本数据挖掘”。“当相应的文本数据可能构成作品的前提下，文本数据挖掘行为是否侵犯‘复制权’当前仍存在争议。”肖飒说。

她指出，在比较法领域，日本和欧盟在其著作权立法中均对合理使用的范围进行了扩大，将AI中的“文本数据挖掘”增列为一项新的合理使用的情形。“目前我国著作权法依旧保持了合理使用制度的封闭式规定，仅著作权法第二十四条规定的十三种情形可以被认定为合理使用，也就是说，目前我国著作权法并未将AI中的‘文本数据挖掘’纳入到合理适用的范围内，文本数据挖掘在我国依然需要相应的知识产权授权。”

AIGC可以受到版权保护吗

公开报道显示，ChatGPT可以编写代码、撰写诗歌，甚至还能通过一定提示完成短篇小说的写作，令人不禁提出疑问：AIGC是否属于创作？人工智能能替代人类作者吗？

人工智能研究专家田涛源对中青报·中青网记者表示，目前ChatGPT本质上还是在做词条的排列组合，会根据人类表达的需求给出最接近人类喜好的答案。“当它的力度到达‘词’这个级别的时候会给人感觉好像是在创作，但实际上它无法跳出训练文本库的归纳范围，即无法创造人类不知道的新知识。”

方超强也指出，AI创作在本质上，是人类创作的衍生；需要明确的是，是人类设计了程序，训练了程序，进而达到AI软件能够相对智能地输出一些符合人类要求的作品。归根结底，本质上还是人在主导。

事实上，当被问及“你生成的内容是作品吗”，ChatGPT也承认，“我可以根据输入的提示来生成文本，但是这些生成的文本并不算是作品，因为它们并没有蕴含创造性、独创性、艺术性等元素，仅仅是根据预先训练好的模型对输入的提示进行生成而已。因此，我生成的内容更类似于工具或辅助工具，可以帮助人们自动生成一些文本，但是它们不算是创意作品或原创作品。”

此前，已有多篇学术论文将ChatGPT列为作者。据《自然》网站报道，至少有4份已发表和预印本上的论文使用了ChatGPT作为论文的“合著者”。

针对这种情况，日前已有多家学术期刊发表声明，完全禁止或严格限制使用ChatGPT等人工智能机器人撰写学术论文。《科学》杂志表示不接受使用ChatGPT生成的投稿论文，同时不允许ChatGPT作为论文合著者。《细胞》和《柳叶刀》则表示论文作者不能使用人工智能工具取代自己完成关键性任务，作者还必须在论文中详细解释他们是如何使用这些人工智能工具的。

北京云嘉律师事务所副主任、中国政法大学知识产权研究中心特约研究员赵占领在接受中青报·中青网记者采访时表示，按照目前绝大部分国家的著作权法，使用人工智能软件产生的内容不属于法律意义上的作品，人工智能软件本身不能视为法律意义上的作者，使用者也并非著作权人。

“但从商业角度而言，AI智能公司花了大量金钱和技术资本打造了高度智能的AI程序，对该程序衍生的‘作品’完全不予保护，也有违公平。”方超强指出，此前国内司法实践中，对于字库软件生成的具有独创性和艺术美感的“字体”给予著作权保护，也是对AI作品进行保护的一种体现。他认为，如何对现有知识产权理论和法律体系进行调整，为AI文本或其他AI作品，包括AI美术作品、音乐作品等，提供合理且必要的权利保护体系，已经是目前较为迫切的命题。

“个人认为，对于具有独创性兼具一定艺术高度的AIGC作品，应当受到知识产权的保护，反之则不予保护；相应的知识产权权属应当归属于AI公司；至于这一类的AIGC作品保护、使用规则，是否需要比对人类创作作品进行缩减或限制，仍有待进一步的探讨。”方超强还建议，“应对AIGC内容进行有限度的保护，如果不加以限制，未来可能会出现AI公司手握‘创作霸权’的局面，影响甚至抑制人类创作者的创作热情，长远来说，会影响人类的知识产权创作。”

但就目前ChatGPT的表现来看，它的“创作”所体现出来的观点通常并不鲜明，更缺乏原创性，表达方式虽未必与其他人作品构成实质相似，但也经常借鉴一个或多个主体的表达方式。目前也只能在部分领域、部分方面替代人类的工作。但也带来一定的弊端，容易给某些群体带来思维惰性，在一定程度上可能反而抑制了创新。

(应受访者要求，田涛源为化名)

原标题:剽窃还是创作 ChatGPT背后的知识产权风险

关键词：知识产权人工智能数据挖掘

每日速递：是剽窃还是创作？ChatGPT背后隐藏知识产权风险

相关新闻

最新资讯

月度热点