AI 日报

Stack Overflow 大规模封禁账号:只因大量用户反对与 OpenAI 的合作

  • By 51ITO
  • May 09, 2024 - 2 min read



编译丨诺亚       

出品 | 51CTO技术栈(微信号:blog51cto)   

久负盛名的开发者论坛Stack Overflow最近宣布其与OpenAI达成合作,ChatGPT 将使用 Stack Overflow 的数据,而 OpenAI 的模型也将应用于 OverflowAI。

消息一经传出,就迎来了巨大声浪。大量用户强烈反对利用该网站的论坛帖子来训练ChatGPT。很多人为了防止自己的问题和答案被用来训练AI,纷纷选择删除或重新编辑这些内容,而这些行为却招致了网站版主的封禁。

1.开发者自述:我试图避免自己的劳动成果被窃取,却被封号7天

Stack Overflow的一位用户Ben在Mastodon平台上详细描述了自己的遭遇。他提到,为了避免自己的劳动成果被OpenAI窃取,他开始重新编辑过往的高分回答。

图片图片

Ben解释说,之前他投入了大量时间和精力在Stack Overflow上编写详尽且有用的回答,目的是帮助其他开发者解决问题并促进技术社区的成长。然而,得知自己的贡献可能未经明确同意就被用来训练像ChatGPT这样的大模型时,他感到非常不安。

在他看来,这样的数据使用不仅侵犯了用户的原创权利,也可能导致AI生成的内容未来在互联网上混淆视听,进一步模糊原创与衍生内容之间的界限。

出于这些担忧,Ben决定采取行动,开始系统性地审查和修改他在Stack Overflow上的高分答案,移除那些可能对AI模型训练特别有价值的独特见解和示例代码。他尽量保留问题的核心信息,以便继续为寻求帮助的人提供价值,但同时努力避免直接贡献于一个他并不支持的技术发展方向。   

遗憾的是,Ben和其他采取类似措施的用户很快发现,他们的这一行为并未得到Stack Overflow管理层的理解。相反,许多用户因“破坏内容”或“滥用平台”而遭到临时或永久封禁。这种处理手段也引发了更多反弹。社区内关于版权、数据伦理及用户权限的讨论愈发激烈。

2.自毁还是自救?Stack Overflow“慷他人之慨”的背后真相

尽管很多人将Stack Overflow与OpenAI的合作视作自毁根基。但实际上Stack Overflow与人工智能之间的关系相当复杂。

首先,随着代码编辑期内AI辅助工具的普及,Stack Overflow的流量下降不可避免,同时社区活跃度的降低又必然会削弱其数据价值。其次,根据政策规定,使用生成式AI发布Stack Overflow答案是被禁止的。但禁令之下,依旧有大量贡献者发布AI生成答案的情况,其中不乏资深成员。

而Stack Overflow与OpenAI 的合作一旦达成,OpenAI 将利用 OverflowAPI基于Stack Overflow的公共数据集来训练其模型。公告中还暗示 OpenAI 支付了一笔可观的金额,称该协议将“使 Stack Overflow 能够继续投资于社区驱动的功能”。此外,由于GitHub Copilot 已采用 OpenAI 的技术和模型,因此这一合作很可能会增强 Copilot 编码功能与 Stack Overflow 答案之间的集成。

由此可以看到,与OpenAI的合作至少能让Stack Overflow收获如下好处:

其一,资金支持:合作带来的资金,有助于平台的持续发展和社区功能的增强。

其二,技术进步:利用OpenAI的技术提升用户体验,例如通过集成到GitHub Copilot等工具。

其三,生态共建:一方面,OpenAI使用Stack Overflow的公共数据集来训练模型,可以提升AI模型的准确性和实用性;另一方面,与OpenAI这样的领头羊合作,可以提升Stack Overflow在技术社区中的市场地位。

当然,从用户的大片反对之声中也可以看到:合作弊端也是显而易见的。

首当其冲的就是版权和伦理问题。合作引发了关于版权、数据伦理和用户权限的讨论,大量用户可能对使用他们的内容进行AI训练感到不安。

另外一个争议焦点则集中在对内容质量的担忧上。本身Stack Overflow的社区标准和信任是建立在用户之间的互动和对彼此贡献的认可上。如果AI生成的内容大量涌入,可能会侵蚀这种标准,影响用户参与度和社区的长期健康。更可怕的是,如果AI生成的内容被用于进一步训练AI,可能会导致模型输出的异常。久而久之,还可能导致用户难以区分哪些内容是由人类专家编写的,哪些是由AI生成的,从而影响用户对Stack Overflow内容的信任度。   

另外,从用户利益考虑,不可回避的事实是:一些贡献者担心他们无法从与OpenAI的交易中获益,或者希望选择不让自己的内容用于喂养AI答案。

最后,从Stack Overflow的立场来说亦有风险。通过与GitHub Copilot等服务的集成也可能减少开发者访问需求,进一步加速Stack Overflow自身的衰落。

3.开源知识共享≠拿来即用:“推动技术进步”与“尊重创作者意愿”理应双轨并行

从上述多种视角来看,很难说清Stack Overflow到底是穷途末路时的自掘根基还是绝地求生时的另辟蹊径。

Stack Overflow 并非唯一一个为了利润而改变其对AI原则立场的平台。此前Valve公司也悄然解除了Steam上对AI生成式作品的禁令。在他们的官方博客中,Valve明确表示,开发者在发布游戏时可以使用AIGC但需要明确披露其中使用的人工智能技术。

Stack Overflow与OpenAI的合作也算顺应时潮。OpenAI近期正在加速推动更多合作,诸多标志性交易的达成(比如他们与微软共同宣布将斥资1000亿美元建设数据中心)让其生态圈的构建愈发顺遂。

不过,Stack Overflow大量封号事件却也暴露了开源知识共享与新兴AI技术应用之间日益紧张的关系,也促使人们反思如何在促进技术进步的同时,更好地保护和尊重创作者的权利与意愿。

在声势浩大的AI市场中,对技术与利益的狂热追逐固然令人兴奋,但同时也应当有所节制。种种发展态势一直在提醒我们,在拥抱技术革新带来的机遇时,也需要谨慎考虑其双面性,确保科技进步与可持续发展并行不悖。

参考链接:

https://www.tomshardware.com/tech-industry/artificial-intelligence/stack-overflow-bans-users-en-masse-for-rebelling-against-openai-partnership-users-banned-for-deleting-answers-to-prevent-them-being-used-to-train-chatgpt

https://devclass.com/2024/05/08/stack-overflow-signs-deal-with-openai/

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/