(OSI公布开源AI定义V1.0版本)
01 OSI的开源AI的定义,以及与Meta的冲突
10月28日,开放源代码倡议组织(OpenSourceInitiative,以下简称OSI)宣布发布业界首个开源AI定义(OSAID)。按照OSI的工作计划,OSI还将领导开源社区对市场上的AI系统进行评估,以确定这些AI系统是否可以被视为“开源AI”。
然而,如果按照OSI的定义来看,市面上的绝大多数号称开源的AI模型,都无法继续被称为“开源AI”。首当其冲的,当属Meta的Llama。
生成式人工智能全球爆火以来,Llama被广泛宣传为最大的开源AI模型。
(扎克伯格曾经自豪地表示:开源推动创新,因为它使更多的开发人员能够使用新技术进行创造)
众所周知,Llama可以公开下载,并部署到本地进行使用(国内习惯称为“本地化部署”)。但Llama对商业用途有限制:
·根据Llama2的社区许可协议,在软件发布前,月活跃用户数超过7亿的任何组织,都必须从Meta请求许可证。
·用户不能使用它来改进除Llama2之外的其他大型语言模型。
·Llama不提供对训练数据的访问。
(笔者“本地化部署”的Llama大模型)
那么,OSI的开源定义是什么样的呢?
OSI认为,开源AI系统应该具备以下特征:
·自由地将系统用于任何目的,无需请求许可。
·自由地研究系统的工作原理并检查其组件。
·自由地出于任何目的修改系统,包括更改其输出。
·自由地出于任何目的共享系统供其他人使用,无论是否修改。
同时,任何人都可以对机器学习系统的“数据信息”“代码”“参数”进行修改。(更多开源AI定义,请关注公众号并回复“OSAID”获取中英文比对稿)
照这个标准看,Meta的Llama显然无法符合开源AI的定义。Meta的发言人FaithEischen公开回应:
“(我们Meta公司)在很多事情上,都认可我们的合作伙伴OSI的意见,但Meta不同意这个(OSAID)定义,不存在唯一的开源AI定义,因为以前的开源定义并未涵盖当今快速发展的AI模型的复杂性。”
02OSI的开源AI定义,对大模型企业来说为什么难以接受
按照OSI开源AI的定义,开源几乎意味着完全开放所有的数据、代码和参数,也就是开源AI系统在同行面前将毫无保留。
除了商业上难以变现、竞争对手容易赶超等商业上都考虑之外,还需要考虑开放数据后,可能面临的版权问题。
目前,AI公司从社交媒体和网站上抓取大量图像、音频、视频等素材来训练他们的模型,是行业的现状。
也正因如此,几乎所有国外的明星大模型企业(包括Meta、OpenAI、Perplexity、Anthropic等),都正在面临版权人的诉讼。
要知道,这些版权人大多无法拿到大模型企业的训练数据。从既往的法律文件上来看,版权人多从模型生成结果进行倒推,论证大模型企业必然以版权人的版权作品,进行了模型训练。
(环球音乐诉Claude案中,Claude的生成和版权作品的比对)
可见,在版权人无法直接掌握AI的训练数据的情况下,大模型公司就已经官司缠身。
如果在各国版权法还没有在训练数据的合法边界进行适当放宽、未形成充分的合理使用共识的当下,就要求大模型公司为了符合“开源AI”的定义,冒险公开训练数据,那么大模型公司将很可能因此承受更大的版权诉讼风险。这对于大模型公司来说恐怕是不可接受的。
03 一个特例
今年7月份,苹果公司在开源上,做了一次非常符合OSI开源AI定义的尝试。
苹果推出了一款名为DCLM的大模型,一次性把“data”“weightmodels”和“trainingcode”全部开源。
苹果使用的开源协议是自家的AppleSampleCodeLicense,虽然这份开源协议与OSI的开源AI定义存在部分不完全一致的规定,但整体已经非常接近。
(苹果在huggingface上开源的DCLM模型)
具有广泛影响力的苹果公司,已经以实际行动呼应了OSAID。可以预见的是,人们围绕开源AI的定义,一定还会继续争论不休;也还一定会有其他具有公信力的公司和组织,尝试继续对开源AI进行定义。
在围绕AI开源的讨论中,技术也在不断进步,人们的理解也随之深化,这些争论不仅是必要的,更是推动技术和社会向前发展的关键因素。通过这一过程,人们会逐渐形成共识,正如过去开源软件的发展一样,最终形成了行业内乃至更广泛社区的普遍认同,并最终被执法和司法实践逐渐接纳。
开源不仅仅是一种技术分享的方式,也代表了一种开放合作的精神,鼓励多样性和包容性,促进全球范围内知识和技术的自由流动,让AI更加具有透明度、增强公众对AI系统的信任。
所以,我们支持开源AI,也支持开源AI定义的讨论。
作者:陈焕、李琪瑶 北京市隆安(广州)律师事务所
首发:微信公众号“AI合规圈”
公司决议下次,股东是否打赏的卡死了肯德基阿里
隆安湾区人工智能法律研究中心主任,隆安全国合规委副主任,国家工业信息安全发展研究中心《生成式人工智能数据应用合规指南》标准起草人,广东财经大学法学院人工智能法研究中心兼职研究员,广州市涉外律师领军人才,南沙区政府全球数源中心数据合规项目组副组长,某市市场监督管理局(知识产权局)知识产权专家库专家 业务领域:人工智能专项合规、数据合规、数据资产入表、计算机网络案件、企业与私人法律顾问、民商事诉讼代理。致力于为人工智能项目提供法律安全感,为数字经济发展保驾护航。 著作成果:《法律人ChatGPT应用指南》
思想共享 知识变现
点读是点睛网APP中的一款全民学法的人工智能(AI)新产品。它能“识字”和“朗读”,它使“读屏”变“听书”,解放读者的眼睛和颈椎。它使“讲课”变“写作”,解放讲师的时间和身心。
在点睛网PC或APP端注册,登录点睛网PC端个人后台,点击“我的文章”,填写作者信息并上传文章。当第一篇文章通过编辑审核后,即成为点睛网的正式作者。
作者在点睛网个人中心发布文章,编辑审核合格的才能呈现给读者。作者只能发布自己写的文章,不能发布或转发他人的文章。更不能发布有违法律法规、政府规定,或公序良俗、文明风尚、社会和谐等文章。
作者文章上传后,编辑将在工作日最晚不超过24个小时、非工作日最晚不超过48个小时内完成审核。审核未通过的,说明理由。文章评论的审核,参照以上周期。
本网服务属虚拟电子产品,通过第三方平台支付,退费程序复杂且成本畸高。所以, 一经购买成功,概不支持退费请您理解。谢谢!
本网服务属虚拟电子产品,通过第三方平台支付,退费程序复杂且成本畸高。所以, 一经购买成功,概不支持退费请您理解。谢谢!