什么是采集屏蔽? 由于数据采集需要频繁访问亚马逊获取页面数据,因此亚马逊禁止采集数据,亚马逊判断相同IP在短时间内访问了大量网页,就会判定为采集(测试短时间访问500个左右亚马逊详情页会被提示屏蔽),因而会要求输入验证码以验证是否为机器人在采集,这是一种采集遇到的常见问题,本教程从我们多年经验出发,整理了各种解决办法.注意,更换IP为目前最有效的方法!
屏蔽是采集常见问题,建议您认真阅读,便于您理解采集器工作方法和解除屏蔽方法,避免工作中带来麻烦
被亚马逊采集屏蔽后遇到的常见问题:
1.采集过程中软件提示需要输入验证码,遇到本情况请按本文介绍的方法进行操作即可解决
2.采集过程中被跳转到400或500错误页面,遇到此情况一般是采集过量,亚马逊直接不显示验证码,直接显示错误信息,采集器中点系统设置->清空COOKIE缓存即可
解除采集屏蔽的原理:
目前最有效解除屏蔽的办法还是输入验证码或者更换IP(使用V-P-N软件、宽带重新拨号、重启路由器、HTTP代理、ADSL拨号软件等)让亚马逊检测不到你的IP在采集就行。当然您也可以输入验证码尝试解决,我们推荐换IP解决,是因为此方法简单快速方便。
屏蔽解决注意:
1.更换IP后,如果是软件自动代理切换/拨号/输入验证码等,软件会自动清空之前的COOKIE,但是如果您通过其他方式更换IP,务必记得清空之前的COOKIE缓存,避免被亚马逊继续屏蔽
2.如果您采集过量,一般比如多线程或者多开,速度过于频繁,亚马逊可能会直接不显示验证码,并报错提示404或505等错误,遇到此情况,请清空COOKIE再换IP即可
3.不推荐您一台电脑多线程采集,建议多开采集器(如果需要多开采集器务必将本软件复制几份分别打开,并且保证数据存储位置都设置不同防止冲突),并且每个采集器IP也要尽量不同避免屏蔽
上面说的不理解没关系,您也可以不用看,直接按下面集中方法尝试解决即可!!!
有如下方法可解除亚马逊屏蔽(推荐1-3方法):
若您是采集被屏蔽需要输入验证码,推荐使用第一种方法(在下面),不行可以换其他再试
第一种【输入验证码解除屏蔽】:
在采集器的 系统设置 中勾选开启采集被屏蔽自动暂停输入验证码解除屏蔽 功能(一般默认打开了)
开启后,一旦采集过程中被亚马逊采集屏蔽,您只需要输入验证码即可解除屏蔽 如下图在黄色区域输入验证码并回车。多次输入无效请看下方
为什么多次输入验证码无效?请按如下方法解决即可!
- 弹出验证码输入框中,点击使用“使用IE浏览器输入”按钮,会打开网页,提示输入验证码,输入后,点继续采集即可。
- 如果您使用了蓝灯或者其他VPN,请检查采集器设置的浏览器是否已挂上代理,您可以用浏览器打开一下Google并查看一下IP地址是否为您VPN的IP地址.如果输入验证码的浏览器的的IP地址和采集器的IP地址不一致,会导致输入验证码多次输入无效的问题.(如果是蓝灯代理,直接重启蓝灯后,再输入验证码再试)
- 如果使用IE浏览器输入两次也无效,有时候IE浏览器会出现问题导致验证码提交不成功而一直弹窗,建议开启使用内置浏览器采集,如果是最新版软件,可点击这里查看如何配置内置浏览器http://blog.cxsup.com/archives/1822 。内置浏览器开启后,如果输入无效,可以在采集器“查看页面”中,输入验证码哦!!!
- 您也可以手动用IE浏览器访问https://www.amazon.com/errors/validateCaptcha并输入验证码后继续采集,若非美国站改为其他站点开头域名即可
- 有些屏蔽问题是提交亚马逊的COOKIE无效或错误,因此清空COOKIE也可以解决此类问题,若您不理解什么是COOKIE也没事,按这里的操作尝试解决:在采集器的“系统设置”点击“清空COOKIE缓存”即可。(补充:软件部分情况下cookie无法清空干净,可用360安全卫士或通过控制面板->Internet选项->删除->勾选清空COOKIE并清空后再尝试继续采集并输入一次验证码)。
- 请检查IE浏览器是否能够正常访问amazon,如果您使用的XP系统,浏览器版本过低会导致采集器提交验证码失败,请点击这里下载IE8升级包,安装后即可恢复正常
- 若开启了V P N加速器,请检查使用的V P N等代理软件是否使用的是全局代理(PPTP或L2TP连接模式),若没有使用全局代理模式,请设置为全局代理(PPTP或L2TP连接模式)或关闭V P N代理工具在试。
- 如果您使用HTTP代理,请检查HTTP代理是否可用哦
第二种【利用HTTP代理切换IP解除屏蔽】:
HTTP代理解除屏蔽方法我们还是非常推荐的,因为确实有效,而且稳定(前提你的HTTP代理IP也要速度稳定)
您可以使用HTTP代理采集功能,HTTP代理可改变访问亚马逊的IP地址,从而解除屏蔽,并且本软件HTTP代理功能支持本机和HTTP代理间的智能切换,屏蔽了切换到HTTP代理IP采集,一旦再被屏蔽就可以切换回本机的IP进行采集,从而实现循环HTTP代理和本机IP之间切换采集,经过测试单线程稳定采集50W不屏蔽不提示输入验证码!
注意:我们服务和软件套餐均不包含HTTP代理或代理IP,请您自行购买哦。具体参看我们教程中的附录部分,有推荐一些代理工具(http://blog.cxsup.com/archives/158)
操作方法:
软件中按下F12键打开代理配置窗口(该功能仅限企业版以上用户使用),勾选“被采集屏蔽则自动切换代理服务器” 功能,开启该功能后,软件采集过程中若被采集屏蔽,将按照被采集屏蔽代理切换方式的设置进行切换。默认是按顺序进行切换。记得也要开启总开关哦。
注意:设置的所有HTTP代理务必保证可靠有效,否则采集时屏蔽切换代理,切换到无效的代理会导致接下去采集均失败,请注意这点。
我们要设置被屏蔽切换到HTTP代理127.0.0.1:50156,一旦127.0.0.1:50156被屏蔽又想让他自动切换会本地IP直接采集,那么可以添加一个新的代理,ip地址填写一个带“*”符号的代理即可,如果设置代理很多,要进行多次切换回本地IP,可使用*带一个数字即可,例如*、*1、*2均可,可混插在代理列表中,如下图:
设置代理前请保证代理服务器IP可用,若使用不可用的代理会导致软件频繁更换采集模式反而降低采集速度。
上图的设置代表,有两个代理,一个是使用“127.0.0.1:50156”、一个代理是不使用代理本机IP直接访问。
如此设置后,一旦采集被屏蔽,软件将切换回本机IP直接采集,不使用代理,若再被屏蔽又切换到代理IP采集,即可实现代理交叉轮流切换IP进行采集,单线程采集很稳定屏蔽少!
有关更多HTTP资源和采集器配置详细方法请看 : http://blog.cxsup.com/archives/158
第三种【利用自动重拨功能换IP自动采集】:
采集器支持被屏蔽时自动宽带断线重播功能,通过宽带自动断线重拨可以达到更换IP的目的,从而实现解除屏蔽的目的。
首先需要在系统设置里,开启“被采集屏蔽自动暂停输入验证码或自动拨号解除屏蔽”功能
然后点击“设置暂停自动拨号”按钮,勾选“被屏蔽自动拨号更换IP地址”选项,并输入您的宽带账号密码,保存设置,保存前可以点击“测试重拨”测试是否可以正常拨号。如下图
设置完屏蔽自动拨号后,若采集过程中被屏蔽,将启动自动拨号,断开宽带并重新连接宽带更换IP地址,即可绕过亚马逊屏蔽检查。
小贴士:现在网上有很多ADSL拨号软件,和V-P-N差不多,购买ADSL拨号账号采集器也可以使用,也可以自动拨号换IP,具体可以百度了解
小贴士:淘宝还有出售拨号VPS,这类VPS提供了可拨号功能,每次拨号均可以修改VPS的IP,因此只需要将采集器放置到VPS中,然后使用商家提供的账号即可拨号换IP,非常方便,采集全自动无需手动换IP。
注意:本功能必须是外网环境,本机必须支持拨号上网,若您电脑使用路由器等不是拨号上网的情况将无法使用本功能,具体请咨询电信公司。
第四种【利用V-P-N解除屏蔽】:
目前实测使用V-P-N代理或HTTP代理能够有效解决屏蔽以及采集慢的问题。推荐香港线路、台湾、日本线路的V-P-N线路。注意:使用V-P-N代理工具,代理务必设置L2TP或PPTP的连接模式,不要使用高速模式之类的连接方式,会导致采集器无法连接到该类代理。(部分代理软件仅支持加速浏览器,而其他软件无法加速,因此请咨询您的代理软件方面是否支持全局代理哦)
大家也可以参考HTTP代理采集的方法,点击这里了解,也可以解除屏蔽
注意:我们服务和软件套餐均不包含HTTP代理或代理IP,请您自行购买哦。具体参看我们教程中的附录部分,有推荐一些代理工具(http://blog.cxsup.com/archives/158)
第五种【等待相应时长解除屏蔽】:
亚马逊采集屏蔽一般过一会就会取消,这个时间没有固定值,一般15-30分钟甚至更长,可在系统设置中,找到被采集屏蔽暂停时长即可设置暂停时间,例如设置15分钟后,采集过程中如果被采集屏蔽,会弹出验证码输入框,如果用户没有输入验证码等待15分钟后,软件会自动继续进行采集,假如15分钟后亚马逊解除采集屏蔽,那么就可以自动继续采集下面的数据了。
第六种【分开云服务器进行采集】:
分几个电脑采集或几个云服务器(VPS)采集,将数据分开不同的电脑采集。此方法可保证所有采集器均独立运行,配置好后采集效率会比一台电脑采集稳定。
注意:我们服务和软件套餐均不包含VPS远程主机,请您自行购买哦。
第七种【异常错误导致的屏蔽 更换模式采集】:
开启 兼容采集模式采集试试。 1.在系统设置 中选中使用其他采集模式采集
第八种【下次没屏蔽了在进行采集】:
放到下次再采集,先将没采集完成的数据导出,然后下次需要继续采集变体等,可以点击导入按钮,导入上次未完成采集变体的EXCEL,然后点击“采集列表详细信息”按钮,即可继续采集没有采集到变体或采集失败的项目。
第九种【自行开发插件】:
有能力的客户,可以自己开发屏蔽解除插件,原理是:当采集器发现采集被屏蔽了,会运行程序数据目录下\Plugs\Shield.exe文件,您只需要开发一个exe即可,这个exe可以是断线重拨号、调用IE浏览器输入验证码等均可,采集器打开该\Plugs\Shield.exe文件时,会传递一个命令行,即当前屏蔽的网址。并且采集器会暂停采集,直到该exe程序退出为止。
您也可以自行开发验证码识别插件DLL文件,详细说明请看:http://blog.cxsup.com/archives/703
第九种【利用自动打码软件】:
本软件目前尚未推出自动打码插件,尚处于研究阶段。自动打码目前困难之处是有时候验证码会出现提交错误或提交失败的问题,提交验证码识别需要题分(打码平台识别验证码的积分),会出现题分被浪费的情况,因此尚处开发阶段,请等待我们的好消息!
若您有开发能力,可自行开发验证码处理插件DLL文件,详细说明请看:http://blog.cxsup.com/archives/703