如何检测抄袭内容和伪原创内容?

转载:https://www.yiquanseo.com/jianbiechaoxiheweiyuanchuang/

如果你是一名资深谷歌SEO运营人员,那你很可能把网站内容外包给老外创作,但如何确定老外写内容的时候是不是全力以赴了?以及他们给的内容有没有抄袭、复制、伪原创

相信国内很多谷歌SEOer都在为这个问题头疼,一全老师也是一样,英语水平差,单靠阅读去分辨那是要命也不行的!(大学全搞乱七八糟了,英语课基本没上过,碰运气过了四级,虽然高考英语140分左右,大学是全还回去了……)

能力不够,脑子来凑。因为公司每天都要找老外写个十几篇的内容,加起来最少一万多字,所以抄袭、伪原创这种是必须检查的,查了很多资料以及实践检测之后,一全老师大概总结出这么几种有效的方法来。

方法一:放到谷歌翻译里,查看翻译成中文的内容是否语句通顺流畅,条理分明。

伪原创通常是对原文同义词、近义词进行替换,替换完毕之后,很可能前后语句不通,翻译成其他语言之后更是完全不可读,所以我们用翻译的方式检测。(现在谷歌翻译很强大,老外写的越自然通顺的文章,翻译过来基本完全可读)

比如今天老外刚交了一篇稿,我们把某一段放到谷歌翻译,如下图,翻译出来的中文总体上还是很流畅的:

如何检测抄袭内容和伪原创内容?

如果,整篇文章语句都很流畅,整篇文章思路逻辑清晰,那基本上就算打标了,当然还要确定一下是否为抄袭,这就用到下文其他方法了。

(有些行业特殊一些,哪怕是老外手写,翻译过来可能也读不懂,这些通过谷歌翻译就很难判断)

方法二:使用专门检测抄袭和伪原创的检测工具(四个)

关于拥有这种功能的工具,一全老师一共找了四个,最早用的是duplichecker,这个在前面的一篇文章已经讲过了,感兴趣的可以回头看下。

第二个是spinmenot(网址:https://www.spinmenot.io)

这是我在谷歌上找到的唯一一个明确说明功能就是检测伪原创内容的工具(其实还找到一个,但是那个太老了,属于七八年之前的工具,测试了一下实在不行,我个人认为伪原创检测的需求主要还是在非英语母语人群,所以谷歌上开发这种软件的很少)

根据他们自己的介绍,工具的原理是AI分析伪原创文章特点,然后对我们检测的内容进行判断。

spinmenot有三个指标:40%以上,伪原创可能性低;40%-60%,比较可能是伪原创的;60%以上,伪原创可能性很大

同样是今天交付的文章,我们用spinmenot检测结果,如下图:

如何检测抄袭内容和伪原创内容?

这个工具感觉还不错,因为它是完全免费的,但是具体它是如何判断的,没有给出清晰的解释,所以不能让人完全信服,只能作为初步参考。

第三个工具:copyscape付费版(地址:www.copyscape.com)

Copyscape差不多是谷歌最负盛名的抄袭-原创检测工具,最早检测学生论文起家,后来发现了更大的商机,做成了现在的copyscape,基本相当于一个内容搜索引擎了。

因为copyscape免费版只允许输入链接检测,再加上需求量大,所以只能买了付费版(价格是1900词0.2美金)

还是上面那篇文章,付费版检测结果如下:

如何检测抄袭内容和伪原创内容?

如上图,copyscape的检测显示没有任何问题,如果没有第四个工具,我看到这个结果肯定非常高兴。

第四个工具:quetext(地址:www.quetext.com)

这是非常好的一个工具,主要功能就是检查你的内容是否为抄袭内容,免费的每次只能检测500词,付费的也很便宜,9美金一个月,果断买了。

看检测结果(跟上面用的一篇文章):

如何检测抄袭内容和伪原创内容?

上面用的还是免费版,不到500字,检查结果是7%重复,点击黄色下划线标注的重复内容,可以看到更详细的解释(与哪里的内容重复,以及重复情况)。

Copyscape检测不出来的quetext完全检测出来了,综合判断,quetext略胜一筹。(当然,原因可能是copyscape名气太大,所以很多人都用它来检测,同样的,写手也按照copyscape进行修改,所以导致现在用copyscape什么都检测不出来了。)

除了上面四种工具之外,还有没有其他方法检测伪原创,当然是有的,但是更费劲一点,比如使用intext搜索符(感兴趣的自己谷歌,非常简单),结合老外给的内容在谷歌进行搜索;或者分析标点符号,判断是否是伪原创,