搜索
  • 11

    X
  • 12

    X
  • 易轶

    X
  • 尹正友

    X
  • 于琦

    X
重复内容

陈焕|OpenAI爬虫频繁爬取导致人体3D模型网站瘫痪

免费 陈焕 时长/课时:5分钟/0.12课时 3周前
已学:1,740人 点赞 分享 推荐 收藏 设置

分享到微信

声音

  • 普通女声
  • 普通男声
  • 特别男声
  • 性感男声
  • 情感男声

语速

  • 0.7X
  • 1.0X
  • 1.5X
  • 2.0X
  • 3.0X
  • 4.0X

字号

  • 标准
  • 特大
确定 取消

1 OpenAI爬虫频繁爬取导致人体3D模型网站瘫痪

Triplegangers是一家拥有大量人体模型扫描3D图像数据库的乌克兰公司,主要面向3D艺术家、视频游戏制作者以及任何需要以数字方式重现真实人类特征的群体出售3D文件。

近日,该公司遭遇了一场突如其来的网站瘫痪,背后凶手竟是全球知名的OpenAI公司,OpenAI的爬虫机器人GPTBot正在无情地爬取他们整个网站的内容。

该公司注意到,OpenAI发送了数万个服务器请求,试图下载网站的所有内容,包括数十万张照片及其详细说明。

723d95392191a53b51184a1cf97e9eb1.png

Triplegangers的CEO表示,OpenAI使用了600个IP来抓取数据,他们分析此前的后台日志后发现,可能OpenAI实际上使用更多的IP地址来爬取网站内容。OpenAI的爬虫正在破坏我们的网站,更像是一次DDoS攻击(分布式拒绝服务攻击)了。

OpenAI爬虫的行为不仅导致Triplegangers的网站无法正常运营,还可能给该公司带来巨额的云计算服务账单。

在本次网站瘫痪前,Triplegangers并没有网站缺乏有效的防护措施,仅在网站的服务条款页面载明“禁止爬虫机器人在未经许可的情况下爬取其数据。

b4caa4279deb850ff9fe5b1f8d554a3f.png

从网站瘫痪的结果来看,很明显仅仅在服务条款中声明禁止是没用的。那么,网站应该如何禁止OpenAI的爬虫机器人?

3 OpenAI的爬虫机器人是否会爬取你的数据来训练AI

根据OpenAI平台的爬虫概述,OpenAI展示了OAI-SearchBot、ChatGPT-User和GPTBot三类爬虫机器人。

9f928de345c6de189b7114cc43a6166b.png

1737444662358.png

可以看出,在以上三种爬虫中,OAI-SearchBot和ChatGPT-User仅用于向用户展示检索结果和问答来源展示等,不会将爬取内容用于OpenAI的模型训练。GPTBot则主要用于爬取数据来训OpenAI的模型。如果网站配置禁止GPTBot爬取,理论上GPTBot应停止访问该网站。

robots协议作为互联网行业惯例,能够指导网络爬虫如何爬取和索引网站内容。如果网站不想GPTBot访问网站的全部内容,可以将以下代码添加到robots协议中:

User-agent:GPTBot

Disallow:/

如果仅是通在网站的服务条款中禁止GPTBot爬虫,像Triplegangers公司一样,GPTBot可能无法识别。

但需要注意的是,即便网站更新了robots协议来禁止OpenAI的爬虫,OpenAI的系统可能需要24小时才能才能进行更新调整,识别到网站的禁止行为,不再爬取网站内容。

Triplegangers公司的CEO认为,这些AI公司似乎在钻漏洞,声称网站可以通过robots协议来选择退出被爬取,但实际上AI公司把责任转移到网站身上,网站运营者必须了解如何屏蔽不同的爬虫机器人。

3 警惕爬取大模型训练数据的法律风险

根据我国的法律规定和司法实践,未经许可爬取大模型训练数据,如爬取数据涉及受版权保护的内容、个人信息等,则可能侵犯他人的著作权和个人信息安全。此外,与一般的企业间网络爬虫行为不同,爬取数据用于AI训练是否构成不正当竞争也有待在理论和实践中进一步探讨。

本次OpenAI爬虫攻击事件给AI模型公司敲响了警钟,在关于爬取AI训练数据的监管尚未明朗的当下,企业仍应当遵循行业惯例和商业规则,尊重和保护他人的合法权益,避免侵犯知识产权、个人信息安全、商业秘密等,关注训练数据来源的合法合规。


作者:

陈焕,北京市隆安(广州)律师事务所律师、隆安湾区人工智能法律研究中心主任

李琪瑶,北京市隆安(广州)律师事务所律师、隆安湾区人工智能法律研究中心研究员

首发:微信公众号“AI合规圈”


版权声明:著作权归作者所有,如需转载,请联系作者获得授权,并注明作者信息及文章出处
发布:陈焕 编辑:点小读 责任编辑:点小读

还可以输入280个字 查看 《留言评论奖励规则》 发表评论

精选评论

(0)

公司决议下次,股东是否打赏的卡死了肯德基阿里

声音
  • 情感童声
  • 性感男声
  • 特别男声
  • 普通男声
  • 普通女声
语速
  • 0.7X
  • 1.0X
  • 1.5X
  • 2X
  • 3X
  • 4X
字号
  • 特大
  • 标准

作者

陈焕
  • 文章19
  • 读者4w
  • 关注5
  • 点赞29

  隆安湾区人工智能法律研究中心主任,隆安全国合规委副主任,国家工业信息安全发展研究中心《生成式人工智能数据应用合规指南》标准起草人,广东财经大学法学院人工智能法研究中心兼职研究员,广州市涉外律师领军人才,南沙区政府全球数源中心数据合规项目组副组长,某市市场监督管理局(知识产权局)知识产权专家库专家

  业务领域:人工智能专项合规、数据合规、数据资产入表、计算机网络案件、企业与私人法律顾问、民商事诉讼代理。致力于为人工智能项目提供法律安全感,为数字经济发展保驾护航。

  著作成果:《法律人ChatGPT应用指南》

我也要当作者

思想共享 知识变现

点赞

(0) 更多

常见问题

  • 1、“点读”是什么?

    点读是点睛网APP中的一款全民学法的人工智能(AI)新产品。它能“识字”和“朗读”,它使“读屏”变“听书”,解放读者的眼睛和颈椎。它使“讲课”变“写作”,解放讲师的时间和身心。

  • 2、“点读”的作者?

    在点睛网PC或APP端注册,登录点睛网PC端个人后台,点击“我的文章”,填写作者信息并上传文章。当第一篇文章通过编辑审核后,即成为点睛网的正式作者。

  • 3、“点读”的文章?

    作者在点睛网个人中心发布文章,编辑审核合格的才能呈现给读者。作者只能发布自己写的文章,不能发布或转发他人的文章。更不能发布有违法律法规、政府规定,或公序良俗、文明风尚、社会和谐等文章。

  • 4、“点读”的审核?

    作者文章上传后,编辑将在工作日最晚不超过24个小时、非工作日最晚不超过48个小时内完成审核。审核未通过的,说明理由。文章评论的审核,参照以上周期。

记课时

陈焕|OpenAI爬虫频繁爬取导致人体3D模型网站瘫痪

消费:17点币 现有:0点币 课时:0.12课时/5分钟
确定

您好,以下是重要提示:

本网服务属虚拟电子产品,通过第三方平台支付,退费程序复杂且成本畸高。所以, 一经购买成功,概不支持退费请您理解。谢谢!

支付成功

恭喜您记录课时成功!

记课时

陈焕|OpenAI爬虫频繁爬取导致人体3D模型网站瘫痪

消费:17点币 现有:0点币(点币余额不足,还需支付533点币) 课时:0.12课时/5分钟
充值

您好,以下是重要提示:

本网服务属虚拟电子产品,通过第三方平台支付,退费程序复杂且成本畸高。所以, 一经购买成功,概不支持退费请您理解。谢谢!

文章查重申诉
0 /1000
提交成功

我们会尽快处理您的申诉意见,
请注意查看处理结果。