RSS

dedecms 采集教程大全

 


来源网址很重要的。列表的获取就是从这里获取的。 
自己打开:http://www.dedecms.com/web-art/htmlbase/HTML/  
点击分页看下几个分页之间的URL有什么规则 
由此不难看出其中的规则可以看下面的url例子: 
http://www.dedecms.com/web-art/htmlbase/HTML/list_33 _【除此外其他都一样】.html 
由此我们提取出来的规则就是换为变量值的形式 
[url=http://www.dedecms.com/web-art/htmlbase/HTML/list_33_[var]http://www.dedecms.com/web-art/htmlbase/HTML/list_33_[var[/url]:分页].html 
而变量起始值是1,结束值是3,就代表1至3的列表页了。 

用正则匹配置网址就看本身是否有比较特定的文章网址字符。 
下面的html范围就比较重要,采集的实际文章地址就是从这里获取的。 
我们看原dede的列表。我们在浏览器里查看源文件。 
查找以下代码: 
图4 

图4  
 

上图中选中部分就是文章列表内容的开始处,而且在整个页面中是唯一的,因此我们就提取到了开始的HTML了 
结束的HTML一般可以在列表下面的分页处找到,也是提取在正个页面源码中唯一标识的代码,看下图选中部分: 
图5 

图5  
 


下面的【手工指定网址】就是你想特别采集什么网址,就直接填上即可。

 【DEDECMS采集基础教程】采集规则篇(二)
在上一篇“【DEDECMS采集基础教程】列表设置篇(一)” 中介绍了列表设置的方法,接下来我们进入采集规则的设置,上篇的作用是获取到我们要采集的文章的地址,本篇是介绍如何从文章内容页面采集到文章的内容,也是整个采集模型中最为核心的部分。 
一,设置采集内容: 
本篇将以《HTML语言剖析(六)清单标记》为例子,其链接地址是: 
http://www.dedecms.com/web-art/htmlbase/HTML/20060703/30201.html  
由于该测试文章没有分页,所以我们的配置选择的是“不分页”,因此,分页链接区域html也可以不用填写任何内容,如下图1所示: 
[时间:2008-11-20]
相关文章
网站网络专题
网站网络推荐文章