RSS

dedecms 采集教程大全

 

二,采集详细设置 
图2 
图2  
 

这里可以设置每页采集的数据条数,一般来说不要设置太大,否则有可能导致系统处理不过来而部分采集不到,建议别超过15;线 
程数是指每次有多少个线程同时进行采集,线程数的增加可以加快采集速度,但相应的会增加服务器资源的占用,所以请慎用;假 
若目标站点有防刷新限制,此处就可以根据目标站点的防刷新限制时间进行设置,假如没有就默认0秒可以了。 
附加选项这三个设置从字面上应该可以很容易理解,这就根据你的实际需要进行选择了。 

三,采集后的处理 
采集完成后,点击“查看种子网址”进入查看采集的结果。 
这里罗列出了采集回来的内容。可以点击进去查看采集到的内容有无问题的。具体看图3 
图3 
图3  
 

温馨提醒: 
1、在这个列表中有些数据的是否下载有可能显示的是“未下载”,引起的原因可能是网络的原因引起也有可能是你设置的采集条数 
过大导致的。出现这样的情况我们仅需要在上面采集的“附加选项中”选择“仅下载未下载内容”,然后再进行一次采集即可。 
2、在“节点的种子网址”列表中点击“[源网址]”可进入查看该条采集到的数据所在的原来页面 
3、在“节点的种子网址”列表中点击“内容标题”这一栏的超链接可进入查看采集到的数据是否正确,同时也可以修改里面的内容 
,最后记得保存即可,见图4 

图4 
图4  
 

这里需要注意的是:“dede_archives.sortrank”和“dede_archives.pubdate”这两个字段的内容一般不要修改 
4、假如要删除部分不满意的数据,可以在列表中在你要删除的数据前面打勾,然后按“删除所选网址”即可,这里支持批量操作 
四,将采集的数据入库 
这里有多个入口: 
1、在节点管理列表中选择刚才采集的那个节点,然后点击下面的“导出数据按钮”进入入库操作 
2、直接点击我们刚才采集的那个节点进入采集内容管理页面,点击右上方的“导出采集内容”按钮即可进入入库操作 
[时间:2008-11-20]
相关文章
网站网络专题
网站网络推荐文章