Google如何反垃圾内容

发布于 2016-01-05 来源 原文链接

每天,网络上都会出现数百万个新创建的垃圾网页。我们将计算机算法与手动检查相结合,切实打击垃圾内容。

垃圾网站尝试通过不断重复关键字、购买链接(以提升 PageRank)或在屏幕上隐藏文字等各类技术来提高自己的网站在搜索结果中的排名。这对搜索者而言并不是好事,因为这意味着相关度更高的网站会被不相关的结果所淹没;对合法的网站所有者而言也是如此,因为他们的网站会变得更难找到了。不过也有好消息,Google 的算法可检测出绝大多数的垃圾网站并自动降低其排名。对于其他垃圾网站,我们也配备了手动审核网站的小组。

标识垃圾内容

垃圾网站的形式多种多样,规模也各不相同。某些网站上是一些自动生成的莫名其妙的内容。当然,我们也发现有些网站使用了较为狡猾的垃圾网站技术。看看这些"纯垃圾内容"示例吧,其中的网站使用了最富攻击性的垃圾网站技术。这是一些真实的垃圾内容的屏幕截图,我们手动标识了这些垃圾内容并于近期从搜索结果中将其删除了。

*我们已从此示例中删除了一些色情内容和恶意软件,否则这就是一个要删除且未经过滤的"纯垃圾内容"的最新英文信息流。

垃圾内容类型

除了上述垃圾内容外,我们还检测到一些其他类型的垃圾内容并采取了相应措施。

隐藏真实内容和/或欺骗性重定向

网站隐藏了真实内容(向用户显示的内容与向搜索引擎显示的内容不同)或要将用户重定向到不同于 Google 看到的网页。

被黑网站

此网站上的某些网页可能已被第三方入侵,出现了一些垃圾内容或链接。网站所有者应立即采取措施清理其网站并修复所有安全漏洞。

隐藏文字和/或关键字堆砌

一些网页可能包含隐藏文字和/或关键词堆砌。

托管域

托管域是指独创内容很少的占位网站,Google 通常不会在搜索结果中包含这些网站。

纯垃圾内容

网站似乎采用了颇具攻击性的垃圾网站技术,例如自动生成一些莫名其妙的内容、隐藏真实内容、从其他网站抄袭内容和/或屡次违反或严重违反 Google 网站站长指南。

垃圾内容免费托管和动态 DNS 提供商

托管此网站的免费托管服务或动态 DNS 提供商发布了大量垃圾内容。

内容空洞,附加值低或根本没有附加值

网站似乎包含质量低劣或空洞的网页,即不能为用户提供大量附加值的网页(例如内容贫乏的附属网页、门页、内容重复的俗套网站、自动生成的内容或复制的内容)。

网站上包含异常链接

Google 已检测到此网站有大量指向它处的虚假、欺骗性或操纵式的异常链接。这可能是由于销售链接传递 PageRank 或参与链接方案造成的。

指向网站的异常链接

Google 已检测到大量指向此网站的虚假、欺骗性或操纵式的异常链接。这可能是由于购买链接传递 PageRank 或参与链接方案造成的。

用户生成的垃圾内容

此网站似乎包含用户生成的垃圾内容。存在问题的内容可能出现在论坛网页、留言板网页或用户个人资料中。

采取措施

尽管我们的算法能解决绝大多数的垃圾内容,但我们还是会手动对少数其他垃圾内容进行标识,以防止它们影响您的搜索结果的品质。此图表显示了在一段时间内受到手动操作影响的域的数量,并按不同的垃圾内容类型分类。这些数字看上去可能过大而显得不太正常,但您要知道,网络空间太浩瀚了。我们近期的索引快照显示约 0.22% 的域已被手动标记为要删除。

每月的手动操作

手动打击垃圾内容的标志性事件

2005 年 2 月

我们的手动反垃圾内容小组队伍扩建到了印度海德拉巴。

2005 年 3 月

我们的手动反垃圾内容小组队伍扩建到了爱尔兰都柏林。

2006 年 4 月

我们的手动反垃圾内容小组队伍扩建到了日本东京。

2006 年 6 月

我们的手动反垃圾内容小组队伍扩建到了中国北京。

2007 年 10 月 - 旧版

在 2007 年秋天,我们对分类系统进行了更改,以便根据垃圾网页违规类别以结构更合理的格式保存数据(让我们得以创建此图表)。无法相应地归入新系统中的类别的操作会归为"旧版"类别。我们仍然会对此前检测到的内容贫乏的附属网页和隐藏真实内容等垃圾内容类型采取相应措施,但给垃圾内容分类并不适用于较旧的数据。

2009 年 10 月 - 来自您网站的异常链接

通过改进系统,我们减少了对带有异常出站链接的网站执行操作的次数。

2009 年 11 月 - 被黑网站

我们注意到黑客网站的数量有所增加,并因此加强了相关工作以保护搜索结果不受其影响。

2011 年 2 月 - 垃圾内容免费托管和动态 DNS 提供商

为了有效采取适当措施来应对其网站或网页上有大量内容违反我们网站站长指南的免费托管服务和动态 DNS 提供商,我们加强了相关政策的执行力度。这有助于我们保护用户免受垃圾内容的困扰,因为有时对单个垃圾帐户采取措施不太实际。

2011 年 10 月 - 隐藏真实内容和/或欺骗性重定向

我们更改了分类系统,以便将大部分隐藏真实内容和/或欺骗性重定向行为标记为"纯垃圾内容"。不太严重的违规行为仍将单独标记。

2011 年 10 月 - 托管域

由于我们改进了对这些网站的算法检测,因此减轻了手动识别托管域的工作。

2012 年 4 月

我们推出了一种代号为"企鹅"的算法更新,该算法可降低使用垃圾网页策略的网站的排名。

通知网站所有者

我们对网站执行手动操作其实是尝试向该网站的所有者发出提醒,以帮助其解决相关问题。我们希望向网站所有者提供完善其网站所需的信息。这正是我们不断投入大量资源进行网站站长通信和联络的原因。下图显示了通过网站站长工具向网站所有者发送的垃圾内容通知数量。

每月的邮件数

网站站长通信历史记录

2007 年 5 月

以前我们只会通过电子邮件发送通知,2007 年有些网站站长报告收到了虚假的违反网站站长指南通知。为解决此事件,我们暂时停止了电子邮件通知,并开发了新的通知系统。

2007 年 7 月

在网站站长工具中推出消息中心功能后,我们从 2007 年 7 月开始恢复发送通知(5 月因电子邮件欺骗事件暂停了通知)。

2010 年 3 月

我们开始采用一种全新的通知系统,该系统有助于在发现垃圾内容时更加轻松地向网站站长工具中的消息中心发送消息。首个使用此新系统的垃圾内容类别是被黑网站

2010 年 7 月

被黑网站通知系统中的错误导致我们向被黑网站发送的消息数有所减少。

2010 年 11 月

我们对通知系统进行了升级。在此次更新中,我们解决了被黑网站通知错误,并开始尝试发送其他垃圾内容类别(例如来自网站的异常链接)的消息。

2011 年 2 月和 3 月

我们扩展了通知的范围,以涵盖指向网站的其他类型的异常链接。

2011 年 6 月

我们增加了发送大部分消息所使用的语言数量。

2011 年 9 月

我们对垃圾内容的分类系统进行了更改。有些类别的垃圾内容的消息不会发送,同时,我们创建并翻译了适用于新类别的新消息。

2011 年 11 月

被黑网站通知系统中的错误导致我们向被黑网站发送的消息数有所减少。

2011 年 12 月

我们增加了要发送通知的垃圾内容类别,以包含纯垃圾内容和贫乏内容。

2012 年 2 月

影响到我们的被黑网站通知的错误已解决。

监听反馈

手动操作的影响并非无法消除。当网站所有者清理掉其网站上的垃圾内容后,就可以提交重新审核请求来请求我们重新审查该网站。我们会对收到的所有重新审核请求进行处理,并在此过程中与网站所有者进行通信,通报进展情况。

在此之前,大部分提交重新审核请求的网站实际上并未受任何手动标识为垃圾网站的影响。通常,这些网站只会经历在线流量的自然起伏,这可能是因为算法发生更改或出现技术问题,因而阻止了 Google 访问网站内容。此图表显示了自 2006 年起每周提交的重新审核请求的数量。

每周的重新审核请求数量

重新审核请求大事记

2006 年 12 月

我们遇到了一个错误,让我们大约一周都无法正确存储重新审核请求。12 月 25 日(圣诞节)那天,我们代受此错误影响的网站提交请求,创造了当年年底的小高峰。

2007 年 5 月/6 月

很多网站站长收到了有关违反网站站长指南的虚假通知,造成重新审核请求的提交数量异常。

2007 年 12 月

网站站长在每年 12 月底的节假日期间提交的重新审核请求数量较少。

2009 年 4 月

我们发布了一个视频来讲述有关重新审核请求的提示

2009 年 6 月

我们开始回复重新审核请求,让网站站长了解我们已在处理他们的请求。

2010 年 10 月

我们更新了通知系统,并开始发送更多邮件。

2011 年 4 月

我们在全球范围内推出了熊猫算法。过去,网站经常会在发现流量变化时提交重新审核请求,实际上这些流量变化并不是由手动操作引起的。

2011 年 4 月 - 9 月

我们开始发送重新审核回复,在其中详细说明重新审核请求的审核结果。

2012 年 6 月

我们开始针对更多种垃圾网站问题发送邮件。现在,只要垃圾网站处理小组执行的手动操作有可能会直接影响某个网站在网络搜索结果中的排名,我们就会发送通知。