搜索
  • 11

    X
  • 12

    X
  • 易轶

    X
  • 尹正友

    X
  • 于琦

    X
重复内容

陈焕|首个开源AI定义发布,MetaLlama成了伪开源

免费 陈焕 时长/课时:7分钟/0.15课时 1个月之前
已学:1,821人 点赞 分享 推荐 收藏 设置

分享到微信

声音

  • 普通女声
  • 普通男声
  • 特别男声
  • 性感男声
  • 情感男声

语速

  • 0.7X
  • 1.0X
  • 1.5X
  • 2.0X
  • 3.0X
  • 4.0X

字号

  • 标准
  • 特大
确定 取消

d33ffb3f6dfbfb2da6d18a8068c898df.png(OSI公布开源AI定义V1.0版本)

01 OSI的开源AI的定义,以及与Meta的冲突

10月28日,开放源代码倡议组织(OpenSourceInitiative,以下简称OSI)宣布发布业界首个开源AI定义(OSAID)。按照OSI的工作计划,OSI还将领导开源社区对市场上的AI系统进行评估,以确定这些AI系统是否可以被视为“开源AI”。

然而,如果按照OSI的定义来看,市面上的绝大多数号称开源的AI模型,都无法继续被称为“开源AI”。首当其冲的,当属Meta的Llama。

生成式人工智能全球爆火以来,Llama被广泛宣传为最大的开源AI模型。

(扎克伯格曾经自豪地表示:开源推动创新,因为它使更多的开发人员能够使用新技术进行创造)

众所周知,Llama可以公开下载,并部署到本地进行使用(国内习惯称为“本地化部署”)。但Llama对商业用途有限制:

·根据Llama2的社区许可协议,在软件发布前,月活跃用户数超过7亿的任何组织,都必须从Meta请求许可证。

·用户不能使用它来改进除Llama2之外的其他大型语言模型。

·Llama不提供对训练数据的访问。

caecbacd60bf087e52d66bc12c9919df.png

(笔者“本地化部署”的Llama大模型)

那么,OSI的开源定义是什么样的呢?

OSI认为,开源AI系统应该具备以下特征:

·自由地将系统用于任何目的,无需请求许可。

·自由地研究系统的工作原理并检查其组件。

·自由地出于任何目的修改系统,包括更改其输出。

·自由地出于任何目的共享系统供其他人使用,无论是否修改。

同时,任何人都可以对机器学习系统的“数据信息”“代码”“参数”进行修改。(更多开源AI定义,请关注公众号并回复“OSAID”获取中英文比对稿)

照这个标准看,Meta的Llama显然无法符合开源AI的定义。Meta的发言人FaithEischen公开回应:

“(我们Meta公司)在很多事情上,都认可我们的合作伙伴OSI的意见,但Meta不同意这个(OSAID)定义,不存在唯一的开源AI定义,因为以前的开源定义并未涵盖当今快速发展的AI模型的复杂性。”

02OSI的开源AI定义,对大模型企业来说为什么难以接受

按照OSI开源AI的定义,开源几乎意味着完全开放所有的数据、代码和参数,也就是开源AI系统在同行面前将毫无保留。

除了商业上难以变现、竞争对手容易赶超等商业上都考虑之外,还需要考虑开放数据后,可能面临的版权问题。

目前,AI公司从社交媒体和网站上抓取大量图像、音频、视频等素材来训练他们的模型,是行业的现状。

也正因如此,几乎所有国外的明星大模型企业(包括Meta、OpenAI、Perplexity、Anthropic等),都正在面临版权人的诉讼。

要知道,这些版权人大多无法拿到大模型企业的训练数据。从既往的法律文件上来看,版权人多从模型生成结果进行倒推,论证大模型企业必然以版权人的版权作品,进行了模型训练。

4331fb6646df1c34b3bfa59bf55c25ac.png

(环球音乐诉Claude案中,Claude的生成和版权作品的比对)

可见,在版权人无法直接掌握AI的训练数据的情况下,大模型公司就已经官司缠身。

如果在各国版权法还没有在训练数据的合法边界进行适当放宽、未形成充分的合理使用共识的当下,就要求大模型公司为了符合“开源AI”的定义,冒险公开训练数据,那么大模型公司将很可能因此承受更大的版权诉讼风险。这对于大模型公司来说恐怕是不可接受的。

03 一个特例

今年7月份,苹果公司在开源上,做了一次非常符合OSI开源AI定义的尝试。

苹果推出了一款名为DCLM的大模型,一次性把“data”“weightmodels”和“trainingcode”全部开源。

苹果使用的开源协议是自家的AppleSampleCodeLicense,虽然这份开源协议与OSI的开源AI定义存在部分不完全一致的规定,但整体已经非常接近。

2440d6b2c545d3b52789cf168991e8a5.png

(苹果在huggingface上开源的DCLM模型)

具有广泛影响力的苹果公司,已经以实际行动呼应了OSAID。可以预见的是,人们围绕开源AI的定义,一定还会继续争论不休;也还一定会有其他具有公信力的公司和组织,尝试继续对开源AI进行定义。

在围绕AI开源的讨论中,技术也在不断进步,人们的理解也随之深化,这些争论不仅是必要的,更是推动技术和社会向前发展的关键因素。通过这一过程,人们会逐渐形成共识,正如过去开源软件的发展一样,最终形成了行业内乃至更广泛社区的普遍认同,并最终被执法和司法实践逐渐接纳。

开源不仅仅是一种技术分享的方式,也代表了一种开放合作的精神,鼓励多样性和包容性,促进全球范围内知识和技术的自由流动,让AI更加具有透明度、增强公众对AI系统的信任。

所以,我们支持开源AI,也支持开源AI定义的讨论。

作者:陈焕、李琪瑶 北京市隆安(广州)律师事务所

首发:微信公众号“AI合规圈”

   
版权声明:著作权归作者所有,如需转载,请联系作者获得授权,并注明作者信息及文章出处
发布:陈焕 编辑:点小读 责任编辑:点小读

还可以输入280个字 查看 《留言评论奖励规则》 发表评论

精选评论

(0)

公司决议下次,股东是否打赏的卡死了肯德基阿里

声音
  • 情感童声
  • 性感男声
  • 特别男声
  • 普通男声
  • 普通女声
语速
  • 0.7X
  • 1.0X
  • 1.5X
  • 2X
  • 3X
  • 4X
字号
  • 特大
  • 标准

作者

陈焕
  • 文章19
  • 读者3w
  • 关注5
  • 点赞29

  隆安湾区人工智能法律研究中心主任,隆安全国合规委副主任,国家工业信息安全发展研究中心《生成式人工智能数据应用合规指南》标准起草人,广东财经大学法学院人工智能法研究中心兼职研究员,广州市涉外律师领军人才,南沙区政府全球数源中心数据合规项目组副组长,某市市场监督管理局(知识产权局)知识产权专家库专家

  业务领域:人工智能专项合规、数据合规、数据资产入表、计算机网络案件、企业与私人法律顾问、民商事诉讼代理。致力于为人工智能项目提供法律安全感,为数字经济发展保驾护航。

  著作成果:《法律人ChatGPT应用指南》

我也要当作者

思想共享 知识变现

点赞

(1) 更多

常见问题

  • 1、“点读”是什么?

    点读是点睛网APP中的一款全民学法的人工智能(AI)新产品。它能“识字”和“朗读”,它使“读屏”变“听书”,解放读者的眼睛和颈椎。它使“讲课”变“写作”,解放讲师的时间和身心。

  • 2、“点读”的作者?

    在点睛网PC或APP端注册,登录点睛网PC端个人后台,点击“我的文章”,填写作者信息并上传文章。当第一篇文章通过编辑审核后,即成为点睛网的正式作者。

  • 3、“点读”的文章?

    作者在点睛网个人中心发布文章,编辑审核合格的才能呈现给读者。作者只能发布自己写的文章,不能发布或转发他人的文章。更不能发布有违法律法规、政府规定,或公序良俗、文明风尚、社会和谐等文章。

  • 4、“点读”的审核?

    作者文章上传后,编辑将在工作日最晚不超过24个小时、非工作日最晚不超过48个小时内完成审核。审核未通过的,说明理由。文章评论的审核,参照以上周期。

记课时

陈焕|首个开源AI定义发布,MetaLlama成了伪开源

消费:20点币 现有:0点币 课时:0.15课时/7分钟
确定

您好,以下是重要提示:

本网服务属虚拟电子产品,通过第三方平台支付,退费程序复杂且成本畸高。所以, 一经购买成功,概不支持退费请您理解。谢谢!

支付成功

恭喜您记录课时成功!

继续听课 选择文章
记课时

陈焕|首个开源AI定义发布,MetaLlama成了伪开源

消费:20点币 现有:0点币(点币余额不足,还需支付533点币) 课时:0.15课时/7分钟
充值

您好,以下是重要提示:

本网服务属虚拟电子产品,通过第三方平台支付,退费程序复杂且成本畸高。所以, 一经购买成功,概不支持退费请您理解。谢谢!

文章查重申诉
0 /1000
提交申诉
提交成功

我们会尽快处理您的申诉意见,
请注意查看处理结果。

确认