重复页面如何处理?重复页面问题综合指南

关于重复页面(Duplicate),相信很多做谷歌SEO的人都听过这个名词。大家应该知道,过多的重复页面会导致页面平均排名的下降,从而导致页面关键词曝光减少,点击下降。

本文会带着大家一起来了解重复内容页面形成的原因,以及处理的方法。下面我我就从重复内容的定义开始说起。(阅读时间10分钟,部分外部链接需要通过科学上网进行访问。)

什么是重复内容?

重复内容是指在一个以上的页面中,出现相同或者过分相似的内容。这里,内容的载体是 “页面”,判断是否重复的这个标准的是搜索引擎。

虽然各大搜索引擎并没有明确强调,重复内容肯定会导致你的页面被降权。但是通过数据观察,重复内容多的,以及页面重复率高的,都不会获得良好的曝光。

这个在SEO业界也是有共识的。之前在URL标准化里提到过,URL是页面的唯一标识符。类似身份证ID一样。一个人只能有一个身份证ID,如果出现了多了,这个人,多半是有问题的。

同理,在搜索引擎当中,搜索引擎更加青睐标识符明确、并且唯一的页面。这样搜索引擎可以更好地理解你的网站。

搜索引擎为什么不喜欢重复内容呢?

  1. 搜索引擎无法索引,因为搜索引擎不知道,你的这个页面是否有索引的必要。
  2. 搜索引擎无法判断,究竟是给哪一个页面优先排名。试想内容一样,URL不同,搜索引擎应该如何选择?可能你自己都没有办法选吧?
  3. 不利于用户体验。当用户选择分享你的链接(发布外链)的时候,应该选择哪一个呢?

哪些误操作会导致重复内容的发生呢?

这里罗列了一些常见的导致重复页面的原因,同时也给出了推荐的解决方法。解决方法部分可以对照最下方的方式进行参考。

情况一:URL参数

很多B2C类的网站中,商品页面URL可能会配有多个参数。比如一件商品,有Size参数,有颜色参数,有型号参数。当你选择不同的产品的时候,URL中的参数可能会不同。

URL参数

不同的URL,搜索引擎会当作不同的页面去处理。但是,内容(商品图片,商品描述,或者评价部分)却是一模一样的。

👌 推荐解决方法:Canonical标签

情况二:无尽的聚合页面

小提示:聚合页面就是我们经常看到的,分类页,列表页,标签页,归档页等等。

很多人喜欢使用聚合页页面参与排名,例如阿里巴巴国际站,或者是国内的列表网。

但是这些大型网站可以使用聚合页面参与排名,但是小型的网站使用的话就会导致大量重复内容的产生。为什么?

道理很简单,大型网站多数是UGC(User Generate Content 用户产生内容),数据量庞大,即使把一部分内容做聚合,内容中很难会有重复。

但是小型网站内容比较少,可被聚合的内容详情页面就那么几个,搞来搞去还是那些内容。就会出现大量重复内容,导致搜索引擎降权。

👌 推荐解决方式:301跳转

情况三:HTTPS 和HTTP

现在Google搜索引擎(百度也是)给 SSL加密的网站更高的排名。但是很多人在制作HTTPS的时候,却忘记URL统一化。

简单的说,就是在SSL加密的过程中,你的网站既可以通过HTTPS访问,又可以通过HTTP访问。对于搜索引擎来说最好保留一个(https)将http页面自动跳转到https的页面上。

虽然对于Google来说http和https还是可以识别的。但是对于SEO人员来说,我们尽量减少搜索引擎的判断时间,可以提高优化的效率。

👌 推荐解决方式:301

情况四:WWW和不带WWW

大多数网站,会将WWW的域名和不带WWW的域名解析到同一个网站上。那么也就是说,在搜索引擎中出现了2个不同URL(带www和不带www的)但是内容相同。

那么搜索引擎到底给予哪个页面关键词排名呢?是你,你也会纠结吧?

说个小案例:之前一个学员找到我,提到它的网站当中100不到的实际内容页面数量,但是搜索引擎却索引了300多个页面。网站曝光也是时而好,时而坏,非常的不稳定。简单的给他看了下网站之后,就发现,这位同学,情况三发生了,而且情况四也有。

也就是说,一个内容页面平白无故的有了4组不同的URL。还是那句话:搜索引擎到底给予哪个页面关键词排名呢?不拔毛就已经是万幸了。

👌 推荐解决方法:301跳转

情况五:小尾巴

很多人的网站主域名访问时会有一个后缀(index.html、index.php之类)

像这样:www.example.com/index.html 其实这个地址和 www.example.com 是一模一样内容的页面。但是对于部分搜索引擎会当作两个页面去处理,同样会导致重复内容的出现。

👌 推荐解决方法:301跳转

情况六:镜像站点,复制站点

很多不懂SEO的站长,喜欢把自己的内容复制到多个网站当中,导致你的内容重复的出现在多个站点内,连格式都是一模一样的。

其实通过数据不难发现,格式内容一样的多个站点,索引都不是很好,更不用说排名了。

有很多人可能会看过(尤其是百度),很多内容被分发到各种站点,同样也索引的。请理解原创与转载的区别,同时你也可以看一看他们的格式(页面结构)多半是不同的。

重复页面应该如何处理呢?

如果你不清楚Canonical标签和301之间具体有什么区别的话,请看这里哦

方法一:301跳转

果你有4组不同URL但是内容相同,从URL中选择一条标准的,将剩余的3组链接301跳转到第一个页面URL上。因为301跳转属于带权重跳转,可以将4组URL的权重统一。这样,搜索引擎不光可以识别唯一的页面,同时,唯一的那个页面也可以获得更好的排名。

补充说明:WP程序可以使用,Eggplant 301插件;支撑Apache的程序可以使用.htaccess;IIS环境的,直接在可视化界面设置跳转,如此即可。

方法二:REL=”CANONICAL”

处理重复内容的另一个选择是使用 rel=”Canonical”标签进行标记。

REL=”CANONICAL”标记

这样其实就是告诉搜索引擎,虽然有多个相同页面,但是真实需要参与排名的,只有我选中的那个特定页面。

举个例子来说,就是在众多人当中,选择一个人来当其他的人的“爸爸”,只有“爸爸”页面才能参与排名。

用法如下,在所有的“儿子”页面的头部(<head> </head>之间)加入如下代码:

<link href=”爸爸页面的URL” rel=”canonical” />

这样,即使你的网站中有大量的重复内容,搜索引擎也只会认定給特定的“爸爸”页面参与排名。

补充:谷歌官方文档也罗列出了多个可能导致重复页面的原因

为了支持多种设备类型

  • https://example.com/news/koala-rampage
  • https://m.example.com/news/koala-rampage
  • https://amp.example.com/news/koala-rampage

为了启用搜索参数或会话 ID 等所需的动态网址

  • https://www.example.com/products?category=dresses&color=green
  • https://example.com/dresses/cocktail?gclid=ABCD
  • https://www.example.com/dresses/green/greendress.html

当您将同一篇博文同时放在多个版块中时,您的博客系统会自动保存多个网址

  • https://blog.example.com/dresses/green-dresses-are-awesome/
  • https://blog.example.com/green-things/green-dresses-are-awesome/

您的服务器已配置为针对 www/非 www http/https 变体提供相同的内容

  • http://example.com/green-dresses
  • https://example.com/green-dresses
  • http://www.example.com/green-dresses

您在相应博客上提供的要转载到其他网站上的内容与这些网域中的原有内容完全重复或部分重复:

  • https://news.example.com/green-dresses-for-every-day-155672.html(转载博文)
  • https://blog.example.com/dresses/green-dresses-are-awesome/3245/(原始博文)

推荐阅读: 整合重复网址 – Search Console帮助