AI 日报

2500页算法文档泄露!搜索史上最强黑箱曝光,谷歌翻车再升级?

  • By 51ITO
  • May 30, 2024 - 2 min read



撰稿丨诺亚   

出品 | 51CTO技术栈(微信号:blog51cto)

谷歌有点流年不利。

前两天刚被曝出,其搜索新推出的“AI 摘要(AI Overviews)”功能经常提供严重错误的搜索结果信息,例如,荒唐地建议用户用胶水来防止披萨上的奶酪滑落。对此,CEO皮查伊也不得不承认这是大语言模型的幻觉所致,且目前还没有解决方案。

最近谷歌疑似再次“翻车”。一份据称包含2500页的谷歌内部文件被泄露,这份文件可能首次向公众揭示了谷歌搜索引擎的运作机制。截至本文发布,谷歌尚未就泄露事件做出官方回应,也没有对文件的真实性提出异议。

长期以来,谷歌作为当今互联网上最毋庸置疑的霸主,如何对网站进行排名的细节一直是个谜。而这次泄露事件提供了一个新视角,让我们得以窥见谷歌高度保密的搜索算法系统,以及运作机制里与谷歌此前的公开声明里相矛盾的地方。

1.2500页泄露文件

谷歌的搜索算法或许是互联网上最具影响力的系统,它决定了网站的生死存亡及网络内容的呈现形态。但谷歌究竟是如何对网站进行排名的具体细节,从来都是“黑箱”,虽然也有媒体、研究人员以及从事搜索引擎优化工作的人士进行过种种猜测,但也只是盲人摸象。我们始终难以窥见完整的拼图。

如今,据外媒The Verge报道,这起堪称炸裂的泄露事件似乎首次揭开了搜索功能背后的神秘面纱,并暗示谷歌多年来并未完全诚实地公开其运作方式。到目前为止,谷歌尚未对有关文件真实性的多次置评请求作出回应。

从事SEO工作超过十年的Rand Fishkin是这起事件的主角。他透露,一位消息人士与他分享了长达2500页的文件,希望借此来揭露谷歌关于搜索算法运作方式所散布的对外“谎言”。

据Fishkin介绍,这些文件概述了谷歌的搜索API,并分解了向员工提供的信息内容。Fishkin分享的细节繁复且技术性强,对于开发者和SEO专家来说可能比普通人更容易理解。

泄露内容本身并不一定证明谷歌使用了特定数据和信号来进行搜索排名。相反,泄露文件概述了谷歌从网页、网站和搜索者那里收集了哪些数据,并间接向SEO专家提供了关于谷歌关注点的线索。

2.与谷歌公开声明相矛盾

正如SEO专家Mike King在其对文件概述中所写的那样,泄露的文件涉及多个主题,如谷歌收集和使用的数据类型、谷歌针对选举等敏感话题如何提升某些网站的权重、谷歌如何处理小型网站等。

更值得关注的是,据Fishkin和Mike King所述,文件中的某些信息似乎与谷歌的公开声明相矛盾。

“说‘撒谎’可能太过严重,但在这种情况下,这是最贴切的说法,”Mike King这样表述:“我理解谷歌的公关人员为了保护公司秘密所做的努力,但我不能接受的是,他们会去贬低那些在营销、科技和新闻领域内,发现并提出质疑的人。”

谷歌尚未就涉及这些文件的The Verge的置评请求做出回应,其中包括直接要求反驳文件的真实性。Fishkin在给The Verge的电子邮件中表示,谷歌并未对泄露的真实性提出异议,但有一位员工要求他更改帖子中关于某个事件描述的部分措辞。

谷歌保密的搜索算法催生了一个由营销者组成的行业,他们紧跟着谷歌的公开指南,为全世界数百万公司实践SEO策略。然而,这些广泛应用的手段,逐渐使人们普遍感觉到:谷歌的搜索结果正每况愈下,充满了垃圾信息。

网站运营者感觉不得不生产这类内容以使自己的网站被看到。但面对这样的质疑,谷歌的对外发言人总会搬出一套熟悉的说辞:我们的指南并非如此指示。

但泄露文件中的某些细节让人质疑谷歌关于搜索功能运作方式的公开声明的准确性。

Fishkin和Mike King引用的一个例子是谷歌是否在排名中使用Chrome数据。谷歌代表多次表示不使用Chrome数据来排名页面,但Chrome在关于网站如何出现在搜索中的部分被特别提及。

图片图片

在上面的截图中,根据文件显示,主要vogue.com网址下方出现的链接部分可能就是利用Chrome数据创建的。

另一个引起关注的问题是E-A-T(专业知识、权威性和可信度)在排名中扮演的角色。众所周知,多年来E-A-T一直是谷歌搜索质量评估指南的基石。

谷歌的代表此前曾表示,E-A-T并不是一个排名因素。Fishkin指出,他在文件中没有找到太多直接提到E-A-T的内容。

还有,谷歌的代表以前曾坚称,署名是网站所有者应该为读者而不是为谷歌做的,因为它不影响排名。但似乎并非如此。

迈克·金详述了谷歌如何收集页面的作者数据,并指出文件中存在一个用于辨识实体是否为作者的字段,该字段虽主要为新闻文章设计,但也涵盖其他诸如科学文章的内容。尽管这并不能证实署名是明确的排名要素之一,但它确实表明谷歌至少在密切跟踪这一属性。

3.搜索算法革新,从此互联网生态“变天” 

尽管这些文件并非确凿无疑的证据,但它们提供了一个深度且未经过滤的视角,让我们得以窥见这个高度保密的黑箱系统。

事实上,在过去的两年里,谷歌搜索经历了一系列重大更新,有些甚至是前所未有的颠覆式更新。比如本文开头提到的,饱受诟病的“AI概览”功能就是很有代表性的革新之一。

变革之初,谷歌掌舵人皮查伊表示,未来谷歌搜索将为你的许多问题提供自己生成的AI答案,并对这一产品功能表达了强大的信心。

谷歌的一位发言人曾告诉BBC,公司只有在经过严格测试,确认变化对用户有益后才会推出搜索变更,并且公司为网站所有者提供了帮助、资源和就其搜索排名反馈的机会。

但现实却总是脱轨于理想。

无论是关于AI概览功能的“致命幻觉”,还是在这份疑似泄露文件里传达出的“表里不一”的信息,都在引发人们对于谷歌搜索的猜疑和警惕。

回顾整个互联网发展史,没有哪家企业像谷歌一样,不仅改变了这个蓝星上大多数人获取信息的方式,也重塑了内容创造和分发的格局。

就用生成式AI加持搜索举例,谷歌似乎志在通过这些技术革新来更高效地连接用户与信息,提升搜索体验的整体质量。

但事实上,正如批评者所说,这种转变可能加剧信息同质化,减少用户探索网络的深度和广度,因为他们越来越依赖于谷歌直接提供的简短答案,而不是亲自访问源网站。这不仅可能削弱独立网站和博客的可见度及盈利模式,还可能影响到网络生态的健康和多样性,限制了用户接触多元观点和深入分析的机会。

对强大如谷歌的搜索玩家来说,如何确保搜索算法优化既能服务于大众,又不会破坏那些为网络贡献高质量内容的生态基石,也许才是能够长远发展的根本所在。

参考链接:

https://www.theverge.com/2024/5/28/24166177/google-search-ranking-algorithm-leak-documents-link-seo

https://www.bbc.com/future/article/20240524-how-googles-new-algorithm-will-shape-your-internet

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/