图1
图1
有分页文章的设置方法将会在以后进行介绍。
二,内容字段的设置:
进入这一步,就开始对页面源码进行着重的分析了,采集无非是分析html页面的结构从而获取我们所需的内容。
所以这里就要求我们对HTML代码有一定的认识,最起码你也该看懂html代码的结构。
通过查看页面源文件,我们可以查看到页面的html代码。
1、文章标题:
最简单的方法是直接搜索这个标题在html代码中出现的位置,例如本篇例文的标题是:HTML语言剖析(六)清单标记,因此直接搜索出来在html代码总总共出现有两处,第一处的代码是
<title>HTML语言剖析(六)清单标记 - 织梦内容管理系统</title>
第二处出现的代码是:
<!--资讯标题-->
<div class="title">
<h1>HTML语言剖析(六)清单标记</h1>
</div>
<!--相关信息-->
由上面两处不难得出,第二处对于我们来捕获该文的标题比较方便,因为不用再去写规则过滤掉一些我们不需要的信息。经过再次搜索全文HTML得出,<h1>和</h1>在文中具有唯一性,因此可以作为获取标题的起止html代码,设置如下图2:
图2
图2
2、文章作者:
如果你不想用该文章上所显示的作者,也可以留空,dede会自动把文章的作者名给你添加上“佚名”
要采集这个文章作者也不难,经过分析后,可以看出文章作者在HTML代码中出现的位置,先看看下图3中选中部分代码
图3
图3
这样文章作者的采集范围我们就可以定下来,其设置如下图4所示:
图4
图4
*若文章作者中有包含超链接,其代码表现形式为“<a href="" ……>文章作者</a>”,我们也可以采取过滤规则将其过滤掉,其规则如下:
{dede:trim}<a([^>]*)>{/dede:trim}