RSS

dedecms 采集教程大全


图1 
图1  
 

有分页文章的设置方法将会在以后进行介绍。 

二,内容字段的设置: 
进入这一步,就开始对页面源码进行着重的分析了,采集无非是分析html页面的结构从而获取我们所需的内容。 
所以这里就要求我们对HTML代码有一定的认识,最起码你也该看懂html代码的结构。 
通过查看页面源文件,我们可以查看到页面的html代码。 
1、文章标题: 
最简单的方法是直接搜索这个标题在html代码中出现的位置,例如本篇例文的标题是:HTML语言剖析(六)清单标记,因此直接搜索出来在html代码总总共出现有两处,第一处的代码是 
<title>HTML语言剖析(六)清单标记 - 织梦内容管理系统</title> 
第二处出现的代码是: 
<!--资讯标题--> 
<div class="title"> 
<h1>HTML语言剖析(六)清单标记</h1> 
</div> 
<!--相关信息--> 
由上面两处不难得出,第二处对于我们来捕获该文的标题比较方便,因为不用再去写规则过滤掉一些我们不需要的信息。经过再次搜索全文HTML得出,<h1>和</h1>在文中具有唯一性,因此可以作为获取标题的起止html代码,设置如下图2: 
图2 
图2  
 

2、文章作者: 
如果你不想用该文章上所显示的作者,也可以留空,dede会自动把文章的作者名给你添加上“佚名” 
要采集这个文章作者也不难,经过分析后,可以看出文章作者在HTML代码中出现的位置,先看看下图3中选中部分代码 
图3 
图3  
 

这样文章作者的采集范围我们就可以定下来,其设置如下图4所示: 
图4 
图4  
 

*若文章作者中有包含超链接,其代码表现形式为“<a href="" ……>文章作者</a>”,我们也可以采取过滤规则将其过滤掉,其规则如下: 
{dede:trim}<a([^>]*)&gt;{/dede:trim} 
[时间:2008-11-20]
相关文章