八爪鱼采集器云采集排错教程

云采集排错教程


本教程针对本地采集有数据,云采集没有数据的排错教程,如果本地采集没有数据,请先参考本地采集排错教程 本文来自小莫扎特博客www.plusminustsuchi.com 提供
本地采集有数据,云采集没有数据主要原因为以下三点:

本文来自小莫扎特博客www.plusminustsuchi.com 提供
1.云服务器IP被所采集网站封禁
访问限制 本文来自小莫扎特博客www.plusminustsuchi.com 提供
3.网站或网速原因

一、云服务器IP被封锁 本文来自小莫扎特博客www.plusminustsuchi.com 提供


以天猫为例:
本文来自小莫扎特博客www.plusminustsuchi.com 提供

本地采集时正常,如图 1 天猫本地采集

本文来自小莫扎特博客www.plusminustsuchi.com 提供


图 1 天猫本地采集

此时我们可以很直观的看到,本地采集的网页网址是正常的列表信息网址,如红框图 2 天猫列表信息网址 本文来自小莫扎特博客www.plusminustsuchi.com 提供


图 2 天猫列表网址

本文来自小莫扎特博客www.plusminustsuchi.com 提供





然后我们将任务启动云采集,会发现任务完成后,并没有采集到任何数据,如图 3 天猫云采集
本文来自小莫扎特博客www.plusminustsuchi.com 提供



图3 天猫云采集
本文来自小莫扎特博客www.plusminustsuchi.com 提供




此时我们把任务复制出来,删除其他操作步骤,仅留打开网页,然后在打开网页处增加一个提取数据,添加三个固定字段,云采集,如图4 提取三个固定字段
本文来自小莫扎特博客www.plusminustsuchi.com 提供



图 4 提取三个固定字段

本文来自小莫扎特博客www.plusminustsuchi.com 提供



启动云采集后,我们看到云采集截图如下:
本文来自小莫扎特博客www.plusminustsuchi.com 提供


图 5 云采集结果

本文来自小莫扎特博客www.plusminustsuchi.com 提供


再对比下本地采集时采集的结果,如图:

本文来自小莫扎特博客www.plusminustsuchi.com 提供

图 6 本地采集结果

如果一致,则节点正常,如果不一致,如图所示: 本文来自小莫扎特博客www.plusminustsuchi.com 提供


图 7 云采集不一致 本文来自小莫扎特博客www.plusminustsuchi.com 提供



如图红线部分,明明采集的是天猫,云节点打开后网址是,云节点上要求登陆了,因为我们可以判断出云服务器IP被所采集的网站封禁了 本文来自小莫扎特博客www.plusminustsuchi.com 提供
小贴士 如果发现打开网页没有问题,我们可以验证下其他步骤,例如下一步是循环下一页,则我们可以提取下循环的Inner HTML(或Outer HTML),把循环的XPATH单独拿出来,做提取数据,然后提取方式选择Inner HTML,如图:
本文来自小莫扎特博客www.plusminustsuchi.com 提供

图 8 提取循环的Inner HTML

本文来自小莫扎特博客www.plusminustsuchi.com 提供




如果下一页正常加载,云采集数据如此,如图红线处:

本文来自小莫扎特博客www.plusminustsuchi.com 提供




图 9 云采集截图
本文来自小莫扎特博客www.plusminustsuchi.com 提供




小贴士 至此,云采集IP被封禁排错原理已经讲完,具体是那个操作出现了问题,可以按上面的步骤多次提取排查,如果提取正常,那么整个流程就会正常执行,如果提取不到数据,就说明该步骤有问题,网页打开和本地采集做流程时不一致 本文来自小莫扎特博客www.plusminustsuchi.com 提供

二、Cookie访问限制
Cookie访问限制一样,可以按云采集IP封禁进行排错,如果发现云采集采集下来的网址URL含有“login”等登陆信息,如图10:

本文来自小莫扎特博客www.plusminustsuchi.com 提供


图 10 云采集页面URL
具体如何采集页面网址URL,见第一大类(一、云服务器IP被封锁)详细操作,如果发现需要登陆,有以下两种解决方案: 本文来自小莫扎特博客www.plusminustsuchi.com 提供
A.将登陆做进流程设计
登陆
本文来自小莫扎特博客www.plusminustsuchi.com 提供

C.登陆的全部教程地址

三、网站或网速原因

本文来自小莫扎特博客www.plusminustsuchi.com 提供



知识补充 如果一点网站未完全打开,则显示如图11红线处:
本文来自小莫扎特博客www.plusminustsuchi.com 提供

图 11 未完全打开的网页

本文来自小莫扎特博客www.plusminustsuchi.com 提供



如上图,我们可以明显看到,网站网页URL明显有红框处在转的图标: 本文来自小莫扎特博客www.plusminustsuchi.com 提供
一个完全打开的网站,应该如图所示:

本文来自小莫扎特博客www.plusminustsuchi.com 提供


图12 完全打开的网页

本文来自小莫扎特博客www.plusminustsuchi.com 提供
有时候一个网页,即便完全打开了,列表数据也要延迟几秒才能加载出来,如图所示:

本文来自小莫扎特博客www.plusminustsuchi.com 提供
图13 网页完全打开数据列表数据没有完全加载

本文来自小莫扎特博客www.plusminustsuchi.com 提供

如图红框1,网页已经处于完全打开状态,但是红框2的列表数据还没有加载出来,在八爪鱼中,如果一个操作已经完全执行完成(例如:网页完全打开),那么它会立即执行下一个操作步骤,但此时如图红框2,列表数据没有加载出来,所以执行失败,云采集没有数据

本文来自小莫扎特博客www.plusminustsuchi.com 提供



解决措施:碰到这种因网速原因或者网站本身原因,导致数据加载过慢时,我们只需要做以下操作,如图14:
本文来自小莫扎特博客www.plusminustsuchi.com 提供

图 14 执行前等待或出现元素
本文来自小莫扎特博客www.plusminustsuchi.com 提供

以上的设置适用于流程设计步骤高级选项中含有执行前等待的所有操作,设置完成后,只要满足“执行前等待”、“出现元素”中的任一条件就可以向下执行,通过这样的设置,我们可以避免数据加载过慢或者网站完全打开后列表数据还未加载的情况
本文来自小莫扎特博客www.plusminustsuchi.com 提供
总结:以上就是我们云采集通用排错教程,仔细阅读并理解其原理能够帮我们更好的采集互联网公开数据

内容版权声明:以上内容均为转载,如有侵犯原作者请联系删除!