RSS

dedecms 采集教程大全


{dede:trim}</a>{/dede:trim} 
设置方法可以见上图4中的过滤规则。 
3、文章正文: 
要找到文章正文在HTML代码中出现的位置,一个便捷的技巧就是先复制网页中正文的头几个字,然后在html代码中查找,就可以很快定位出来,这也可以方便我们分析代码。 
只要找出文章正文前的唯一性代码和文章结束时的唯一性代码,就可以抓出文章的正文。如下图5所示: 
图5 
图5  
 

因为本文例文是没有分页内容,所以这里的“分页内容字段”不用选,若你想将文章正文中包含的多媒体资源(如图片、视频等)下载到本地服务器,你可以勾上“下载字段里的多媒体资源” 
过滤规则是比较重要的部分,通过正则规则可以将文章中的广告代码或LJ代码、干扰代码过滤掉,不采集下来,若人家文章中有挂了广告,我想你也不想免费给人家挂广告吧。 
至于过滤规则部分将再以后讲解。 

剩下的文章来源,发布时间和录入时间等,都和以上的设置大同小异的,采集与否都无所谓,就看你的需要了。 

三,至此,节点和规则的设置都完成了,接下来就是采集,下载和导出(入库)了。 
最后再强调一点的就是必须懂HTML代码,最起码得能看懂目标页面的html代码的大概组成,知道文章的内容是存放在哪些代码之间。 
下篇预告:进行采集篇,以图文的方式介绍如何进行采集,导出所采集到的数据入库

 【DEDECMS采集基础教程】进行采集篇(三)
经过【DEDECMS采集基础教程】列表设置篇(一)和【DEDECMS采集基础教程】采集规则篇(二)的介绍,我们基本掌握了采集规则 
的写发。这一篇我们将介绍如何进行采集以及采集后的入库。 
一,选择节点,进入采集 
先在我们刚建立好的采集节点前面打勾,然后点“采集”按钮,如图1 
图1 
图1  
[时间:2008-11-20]
相关文章