怎么用火车头采集指定特征的网址、图片路径?

分享:怎么用火车头采集指定特征的网址、图片 src

 

本文来自小莫扎特博客www.plusminustsuchi.com 提供

前些天用火车头从一个列表页采集一些网址,源码简化如下: 本文来自小莫扎特博客www.plusminustsuchi.com 提供

[xhtml] view plain copy

本文来自小莫扎特博客www.plusminustsuchi.com 提供

<div> 本文来自小莫扎特博客www.plusminustsuchi.com 提供

<ahref="1"mce_href="1">111</a>

本文来自小莫扎特博客www.plusminustsuchi.com 提供

</div>

本文来自小莫扎特博客www.plusminustsuchi.com 提供

<div> 本文来自小莫扎特博客www.plusminustsuchi.com 提供

<ahref="2"mce_href="2">222</a> 本文来自小莫扎特博客www.plusminustsuchi.com 提供

<imgsrc=""/>

本文来自小莫扎特博客www.plusminustsuchi.com 提供

</div> 本文来自小莫扎特博客www.plusminustsuchi.com 提供

<div>

本文来自小莫扎特博客www.plusminustsuchi.com 提供

<ahref="3"mce_href="3">333</a>

本文来自小莫扎特博客www.plusminustsuchi.com 提供

</div> 本文来自小莫扎特博客www.plusminustsuchi.com 提供

我要采集到第二个链接,就是链接后指定有个IMG的,这个常用来采集热门帖子等,当时写的网址采集规则: 本文来自小莫扎特博客www.plusminustsuchi.com 提供

[xhtml] view plain copy 本文来自小莫扎特博客www.plusminustsuchi.com 提供

<ahref="[参数]"mce_href="[参数]">(*)</a> 本文来自小莫扎特博客www.plusminustsuchi.com 提供

<imgsrc=""/>

本文来自小莫扎特博客www.plusminustsuchi.com 提供

却发现怎么都采集不对,最后想到原因:火车头从源码的前面开始匹配,每个链接都有<a href=”[参数]“>这个特征,所以就匹配到了第一个链接上面,怎么解决呢?花了10块钱,一个兄弟帮我写了个规则: 本文来自小莫扎特博客www.plusminustsuchi.com 提供

[xhtml] view plain copy

本文来自小莫扎特博客www.plusminustsuchi.com 提供

<ahref="[参数]"mce_href="[参数]">[参数]</a> 本文来自小莫扎特博客www.plusminustsuchi.com 提供

<imgsrc=""/>

本文来自小莫扎特博客www.plusminustsuchi.com 提供

就是把模糊匹配(*)给换成了[参数],就是这么简单了,分享给大家也希望对大家有所帮助。 本文来自小莫扎特博客www.plusminustsuchi.com 提供

内容版权声明:以上内容均为转载,如有侵犯原作者请联系删除!