您的位置:首页 > 新闻资讯

鼓励创新与防范风险相结合,构建大语言模型语料合法性标准

发布时间:2025-01-23 08:22:25      阅读量:38次     


< div class="bd" octopus-uid="xwetie">

作为人工智能基础设施的“三驾马车”之一,数据的重要性一直不言而喻。随着大语言模型热潮进入高峰期,业界对数据的关注度前所未有。面对生成式ai模型与知识产权之间呈现出的这种博弈过程,围绕“人工智能大模型产业语料数据知识产权政策”话题,科协界别在市政协十四届三次会议作大会发言——

“人工智能是新一轮科技与产业变革的重要驱动力量,‘算力、算法、数据’是人工智能的核心三要素,而语料数据如同燃料,作为大模型产业的核心驱动力,决定大模型训练结果的上限。应该树立鼓励创新与防范风险相结合理念,构建大语言模型语料合法性标准。”大会发言上,科协界别委员、上海库帕思科技有限公司首席执行官黄海清呼吁,制定完善大模型语料数据知识产权政策,助力人工智能产业发展。


他表示,在人工智能时代,劳动生产的方式已经发生根本性的转变,人机协作式的生产方式是必然的趋势。上海要把握人工智能技术与知识产权融合的关键机遇期,构建与技术水平相适应的治理体系,为人工智能产业高质量发展提供关键支撑。

国内大模型公司面临“授权难、成本高、风险大”难题

黄海清在发言中指出,大模型的训练数据通常是来自于海量的公开数据集和网络内容,这些数据集包括书籍、文章、网站和其他公开可用的内容。中国信通院发布的报告指出,在对86家财富500强的企业调查中“近1/3的大模型使用者最担忧的问题是著作权问题”。但当前我国著作权的“合理使用豁免条款”无法涵盖大模型训练,这给国内大模型公司造成了授权难、成本高、风险大三个主要问题。

大模型训练所需的语料量级动辄数以亿计甚至百亿计,客观上导致难以获得所有著作权人的逐一授权。模型公司难以通过合规渠道获取语料,有碍于基础模型和垂类模型的商业化应用推广和技术迭代创新。

当前购买语料的价格大部分是以版权计价的方式进行,授权周期通常为1年,到期还需销毁,继续使用需要再次收费。例如:训练中国版sora至少需要30万小时视频,如按版权计费,常规每小时4000--5000元,总成本将超1.2亿元,此成本非一般大模型公司所能承受。根据行业经验,语料数据成本占训练总成本的10%-30%。

2022年是生成式ai元年,短短两年多时间,人工智能相关的版权纠纷呈现不断上升趋势,如广受瞩目的奥特曼“aigc平台著作权侵权全球第一案 ”判处某人工智能平台公司败诉,对广州大模型生态建设造成了负面影响。

相较之下,美、日、欧等国家均已推出有关法案,支持人工智能企业合理使用语料数据,如:美国图书馆联盟发布《版权和人工智能原则》,使用受版权保护的作品训练大模型或其他人工智能,符合美国《版权法》中规定的合理使用范围。欧盟法律规定“对作品或其他客体有合法接触权者在文本与数字挖掘目的下复制和撷取不侵权或不侵犯数据库权”。简单来说,在合法公开网站上,若版权人未事先保留权利或未发通知禁止,模型训练平台原则上可不经授权和付费。

加快明确大模型语料数据合理使用规则

生成式ai等技术的发展,让数据要素成为最具时代特征的生产要素,数据对提高人工智能和数字化技术能力的作用正不断凸显。但人工智能发展背后,数据的利用和分配涉及到多方面复杂问题,需要综合考虑技术、法律、伦理等多个维度来找到合理使用的平衡点。总体来说,生成式ai模型与知识产权之间呈现出一种博弈的过程。

黄海清建议,加快明确大模型语料数据的合理使用规则,推动“文本与数据挖掘”在预训练领域的适用。可参考欧盟“文本与数据挖掘”合理使用条款或日本“非欣赏性原则”,实现在国内推行针对机器学习的数据合理使用,平衡著作权人权利和科技发展需要,解决授权难的问题。

呼吁政府出台鼓励政策,支持语料数据企业加强自动化工具链平台研发,降低语料数据成本。围绕上海6大重点行业5大关键领域,加强自动清洗算子及自动标注算法等技术研发,打造ai自动化清洗与标注工具链平台,取代传统劳动密集型人工标注,降低语料成本。

此外,加快人工智能生成物保护范围的法律研究,制定规则明确的人工智能生成物的权属与责任。可借鉴美国的“可转换性”合理使用条款,对于经过“清洗、标注和注释”处理后,不会对原始数据进行原样展示的高质量语料赋予新的权利,不再受原始版权的干扰。