当前位置 :一起过>电脑网络>网站网络>

dedecms 采集教程大全

{dede:trim}</a>{/dede:trim}
设置方法可以见上图4中的过滤规则。
3、文章正文：
要找到文章正文在HTML代码中出现的位置，一个便捷的技巧就是先复制网页中正文的头几个字，然后在html代码中查找，就可以很快定位出来，这也可以方便我们分析代码。
只要找出文章正文前的唯一性代码和文章结束时的唯一性代码，就可以抓出文章的正文。如下图5所示：
图5
图5

因为本文例文是没有分页内容，所以这里的“分页内容字段”不用选，若你想将文章正文中包含的多媒体资源（如图片、视频等）下载到本地服务器，你可以勾上“下载字段里的多媒体资源”
过滤规则是比较重要的部分，通过正则规则可以将文章中的广告代码或LJ代码、干扰代码过滤掉，不采集下来，若人家文章中有挂了广告，我想你也不想免费给人家挂广告吧。
至于过滤规则部分将再以后讲解。

剩下的文章来源，发布时间和录入时间等，都和以上的设置大同小异的，采集与否都无所谓，就看你的需要了。

三，至此，节点和规则的设置都完成了，接下来就是采集，下载和导出（入库）了。
最后再强调一点的就是必须懂HTML代码，最起码得能看懂目标页面的html代码的大概组成，知道文章的内容是存放在哪些代码之间。
下篇预告：进行采集篇，以图文的方式介绍如何进行采集，导出所采集到的数据入库

【DEDECMS采集基础教程】进行采集篇（三）

经过【DEDECMS采集基础教程】列表设置篇（一）和【DEDECMS采集基础教程】采集规则篇（二）的介绍，我们基本掌握了采集规则
的写发。这一篇我们将介绍如何进行采集以及采集后的入库。
一，选择节点，进入采集
先在我们刚建立好的采集节点前面打勾，然后点“采集”按钮，如图1
图1
图1

上一页 1 2 3 45 6 7 8 9 10 下一页

[时间：2008-11-20]

上一篇：天涯社区虚拟之罪感慨论坛管理革新之难
下一篇：阿里巴巴回购429万港元股票

网站网络专题

网站网络推荐文章

最近更新 - 两性知识 - 男人女人 - 老人健康 - 育儿专栏 - 风景美图 - 旅游常识 - 精品短信 - 网银问答
文章内容来源于网络，仅供参考，具体请遵医嘱！
Powered by 一起过_健康网络生活 2008-2021 YIQIG.