文字为原创的教程写了太多,今天写一篇图片伪原创的教程。现在大家对于版权保护越来越重视了,然而,对于营销狗来说,微信公众号,自媒体,搜索引擎不但检测文字是否原创,还会检测图片是否原创,文字伪原创方式多多,但是图片伪原创稍微麻烦了许多。
下面九秋讲一下关于图片伪原创的那些技巧。
图片识别原理
讲图片伪原创之前,先讲一下图片识别是否原创的基本原理。
系统识别图片内容从根本上说就是识别像素点,所有的图像识别,说白了就是像素识别。
感知哈希算法
RGB三原色
有些识别原理很简单,任何一种颜色都是由红绿蓝三原色(RGB)构成的,如果每种原色都可以取256个值,那么整个颜色空间共有1600万种颜色(256的三次方)。针对这1600万种颜色比较直方图,计算量实在太大了,因此需要采用简化方法。可以将0~255分成四个区:0~63为第0区,64~127为第1区,128~191为第2区,192~255为第3区。这意味着红绿蓝分别有4个区,总共可以构成64种组合(4的3次方)。
任何一种颜色必然属于这64种组合中的一种,这样就可以统计每一种组合包含的像素数量。
上图是某张图片的颜色分布表,将表中最后一栏提取出来,组成一个64维向量(7414, 230, 0, 0, 8, …, 109, 0, 0, 3415, 53929)。这个向量就是这张图片的特征值或者叫”指纹”。
内容特征
除了颜色构成,还可以从比较图片内容的相似性入手。
首先,将原图转成一张较小的灰度图片,假定为50×50像素。然后,确定一个阈值,将灰度图片转成黑白图片。
如果两张图片很相似,它们的黑白轮廓应该是相近的。于是,问题就变成了,第一步如何确定一个合理的阈值,正确呈现照片中的轮廓?
显然,前景色与背景色反差越大,轮廓就越明显。这意味着,如果我们找到一个值,可以使得前景色和背景色各自的”类内差异最小”(minimizing the intra-class variance),或者”类间差异最大”(maximizing the inter-class variance),那么这个值就是理想的阈值。
通过计算找出图片的阈值,有了50×50像素的黑白缩略图,就等于有了一个50×50的0-1矩阵。矩阵的每个值对应原图的一个像素,高于阈值的为0,低于阈值的为1,0表示黑色,1表示白色。这个矩阵就是一张图片的特征矩阵。
两个特征矩阵的不同之处越少,就代表两张图片越相似。这可以用”异或运算”实现(即两个值之中只有一个为1,则运算结果为1,否则运算结果为0)。对不同图片的特征矩阵进行”异或运算”,结果中的1越少,就是越相似的图片。
以上原理转自网络
以上三种识别方式其实都是一种方式,将图片分解成像素点,然后将每个不同的像素点确定一个固定的字符,一张图片多个像素点就是多个字符的叠加,即一串字符。
检查相似度的说白了就是检测字符的相似度,字符越是相近那么图片区别越大,反之,图片越是相似。
图片伪原创
图片相似度原理上文简单介绍过了,作为营销狗,不需要了解太多,知道个大概就行了,没必要纠结于算法。
图片伪原创的理念就是,更改图片的字符编码,所以可以通过以下切入点进行图片伪原创。
翻转
超级便捷的伪原创方式了,对于一些左右翻转不影响内容的图片,简单进行水平翻转。基本所有的编辑软件都具备旋转功能。
原图案例
上图可以看出,九秋收藏的这张图片百度识图是可以找到图片来源的,再看旋转之后的图片案例。
是不是很神奇?之所以旋转之后找不到相似图片是因为,图片的字符号已经被完全改变了。
假如原图的像素点第一行字符为123456789。那么翻转后的字符就成了987654321。所以反转之后的系统肯定会觉得这不是同一张图片了。
此类只能应用于,图片可以翻转的情况。
经实际测试,对于一些大量存在的图片只用单纯的翻转是不能达到效果的,需要结合其它方式。
原图案例
这时候的图片识别不但可以找出相似图片,并且清楚的找出图片来源以及人物信息。
伪原创案例
伪原创之后虽然被找出相似图片,但是查不到人物信息了。
尺寸比例
修改图片尺寸后有些平台是识别不出来的,但是百度识图可以。
尺寸比例修改包括像素点数量,画布大小,分辨率等等。
色调
基本的色彩设置可以修改,明度,对比度,饱和度,色相,清晰地等等。
然而,痛苦的是,百度识图依旧是识别的,因为所有的图片系统都会先转化为较小灰度图片,搞的很难从色彩上改变。
图片伪原创如果只是简单修改的话,很难保证在百度上伪原创,百度目前的识别能力挺强的。对于一些其他平台伪原创检测没有那么严格,基本可以使用。
拼图
将原有的多张重复图片进行重新拼接,然后改变掉整体的像素点重合的比例。