织梦(Dedecms)采集侠定向采集文章URL设置大全

在使用织梦(Dedecms)采集侠时,在定向采集文章URL设置过程中遇到了不少问题,虽然有官方演示做参照,但是亦不觉得全面,导致经常会采集失败。下面飒飒来给大家例举一些官方文档没有详细明说的定向采集文章URL设置。

本文来自小莫扎特博客www.plusminustsuchi.com 提供

织梦(Dedecms)采集侠定向采集文章URL设置大全 本文来自小莫扎特博客www.plusminustsuchi.com 提供

官方文档给出的列表URL设置方法如下:

本文来自小莫扎特博客www.plusminustsuchi.com 提供

例: 本文来自小莫扎特博客www.plusminustsuchi.com 提供

比如我要采集站长之家优化栏目里面的文章,他们的文章URL是 本文来自小莫扎特博客www.plusminustsuchi.com 提供

http://www.xxx.com/web/2013/0988/215508.shtml 本文来自小莫扎特博客www.plusminustsuchi.com 提供

http://www.xxx.com/web/2013/0988/215505.shtml

本文来自小莫扎特博客www.plusminustsuchi.com 提供

http://www.xxx.com/web/2013/0988/215594.shtml 本文来自小莫扎特博客www.plusminustsuchi.com 提供

通配后的URL就是:http://www.xxx.com/web/(*)/(*)/(*).shtml

本文来自小莫扎特博客www.plusminustsuchi.com 提供

织梦(Dedecms)采集侠定向采集文章URL设置大全 本文来自小莫扎特博客www.plusminustsuchi.com 提供

但是大多数时候我们会设置成: 本文来自小莫扎特博客www.plusminustsuchi.com 提供

http://www.xxx.com/web/2013/0988/215(*).shtml或 本文来自小莫扎特博客www.plusminustsuchi.com 提供

http://www.xxx.com/web/2013/0988/(*).shtml或 本文来自小莫扎特博客www.plusminustsuchi.com 提供

http://www.xxx.com/web/2013/(*)/(*).shtml或

本文来自小莫扎特博客www.plusminustsuchi.com 提供

http://www.xxx.com/web/(*)/0988/(*).shtml 本文来自小莫扎特博客www.plusminustsuchi.com 提供

虽然以上的通配URL也能实现采集,但是不是完整的通配。 本文来自小莫扎特博客www.plusminustsuchi.com 提供

小技巧:以后在设置列表URL时,遇见数字的全部采用通配符,准没错!

本文来自小莫扎特博客www.plusminustsuchi.com 提供

织梦(Dedecms)采集侠定向采集文章URL设置大全

本文来自小莫扎特博客www.plusminustsuchi.com 提供

以下来说说官方文档未列出但又常见的URL:

本文来自小莫扎特博客www.plusminustsuchi.com 提供

例1: 本文来自小莫扎特博客www.plusminustsuchi.com 提供

http://news.xxx.cn/cs/2016-11-17/11252550.html 本文来自小莫扎特博客www.plusminustsuchi.com 提供

http://news.xxx.cn/cs/2016-11-17/11252538.html

本文来自小莫扎特博客www.plusminustsuchi.com 提供

http://news.xxx.cn/cs/2016-11-17/11252516.html

本文来自小莫扎特博客www.plusminustsuchi.com 提供

这样的文章链接该如何写通配URL呢?想必有不少小伙伴会如下写:

本文来自小莫扎特博客www.plusminustsuchi.com 提供

http://news.xxx.cn/cs/(*)/(*).html 本文来自小莫扎特博客www.plusminustsuchi.com 提供

但是采集测试时,会告诉你采集失败,说明通配URL错误,那该如何设置呢? 本文来自小莫扎特博客www.plusminustsuchi.com 提供

正确设置方法http://news.xxx.cn/cs/(*)-(*)-(*)/(*).html 本文来自小莫扎特博客www.plusminustsuchi.com 提供

例2:

本文来自小莫扎特博客www.plusminustsuchi.com 提供

http://www.xxx.com/?p=5122 本文来自小莫扎特博客www.plusminustsuchi.com 提供

http://www.xxx.com/?p=5123

本文来自小莫扎特博客www.plusminustsuchi.com 提供

这是动态页面,没有生成伪静态或静态URL,也同样可以使用通配规则吗? 本文来自小莫扎特博客www.plusminustsuchi.com 提供

飒飒在此将结果告诉你:可以使用通配规则

本文来自小莫扎特博客www.plusminustsuchi.com 提供

正确设置方法http://www.xxx.com/?p=(*)

本文来自小莫扎特博客www.plusminustsuchi.com 提供

TIPS:当然,必须补充一点,不是所有文章URL设置正确之后就可以采集,采集器都是有限制的,比如那个网站设置了防采集功能,无论你在采集设置上面做多少努力,都是徒劳,所以,在设置采集时,先测试,很重要!一些大站或者牛逼的网站一般都有防采集设置!

本文来自小莫扎特博客www.plusminustsuchi.com 提供

总结 本文来自小莫扎特博客www.plusminustsuchi.com 提供

1.当设置文章通配URL时,如遇到非数字的,一律不能用通配符(*),必须保留,方可正确采集。URL中常见的非数据有英文字母,-,_,?等。 本文来自小莫扎特博客www.plusminustsuchi.com 提供

2.URL通配规则一定要写全,写完后注意检查通配URL中是否含有数字,如含有,则通配URL为完成,将数字修改成通配符之后再保存采集,在将来对方网站修改URL命名时,方能以不变应万变。屏蔽你采集IP除外。 本文来自小莫扎特博客www.plusminustsuchi.com 提供

内容版权声明:以上内容均为转载,如有侵犯原作者请联系删除!