RSS

dedecms 采集教程大全


通过第一个规则,我们采集来的结果是:超链接 
通过第二个规则,我们采集来的结果是:空白,即是将所有内容都过滤掉了。 
2、过滤广告 
对于广告来说,过滤规则就得针对html中看到的内容使用规则了,例如某些广告仅仅是引用某个JS文件,例如 
<script src='/plus/ad_js.php?aid=4' language='javascript'></script> 
这样的规则只需 
{dede:trim}<script(.*)>{/dede:trim} 
{dede:trim}</script>{/dede:trim} 
如果某些广告的内容是JS代码写在<script></script>区间里的,例如GG的广告,那么过滤规则应该是: 
{dede:trim}<script>(.*)</script>{/dede:trim} 
3、下面是一些常识用的过滤规则 
{dede:trim}<!--(.*)-->{/dede:trim} 
{dede:trim}<select([^>]*)&gt;([^&gt;]*)</select>{/dede:trim} 
{dede:trim}<option([^>]*)&gt;([^&gt;]*)</option>{/dede:trim} 
{dede:trim}<select([^>]*)&gt;{/dede:trim} 
{dede:trim}</select>{/dede:trim} 
{dede:trim}<param([^>]*)&gt;{/dede:trim} 
{dede:trim}<embed([^>]*)&gt;([^&gt;]*)</embed>{/dede:trim} 
{dede:trim}<embed([^>]*)&gt;{/dede:trim} 
{dede:trim}</embed>{/dede:trim} 
{dede:trim}<object([^>]*)&gt;([^&gt;]*)</object>{/dede:trim} 
{dede:trim}<object([^>]*)&gt;{/dede:trim} 
{dede:trim}</object>{/dede:trim} 
{dede:trim}<OBJECT([^>]*)&gt;([^&gt;]*)</OBJECT>{/dede:trim} 
{dede:trim}<OBJECT([^>]*)&gt;{/dede:trim} 
{dede:trim}</OBJECT>{/dede:trim} 
{dede:trim}<iframe([^>]*)&gt;([^&gt;]*)</iframe>{/dede:trim} 
{dede:trim}<iframe([^>]*)&gt;{/dede:trim} 
{dede:trim}</iframe>{/dede:trim} 
{dede:trim}<IFRAME([^>]*)&gt;([^&gt;]*)</IFRAME>{/dede:trim} 
{dede:trim}<IFRAME([^>]*)&gt;{/dede:trim} 
{dede:trim}</IFRAME>{/dede:trim} 
{dede:trim}<font([^>]*)&gt;([^<]*)&lt;/font>{/dede:trim} 
{dede:trim}<font([^>]*)&gt;{/dede:trim} 
{dede:trim}</font>{/dede:trim} 
{dede:trim}<a([^>]*)&gt;([^<]*)&lt;/a>{/dede:trim} 
{dede:trim}<a([^>]*)&gt;{/dede:trim} 
{dede:trim}</a>{/dede:trim} 
{dede:trim}<td([^>]*)&gt;([^&gt;]*)</td>{/dede:trim} 
{dede:trim}<td([^>]*)&gt;{/dede:trim} 
{dede:trim}</td>{/dede:trim} 
{dede:trim}<tr([^>]*)&gt;([^&gt;]*)</tr>{/dede:trim} 
{dede:trim}<tr([^>]*)&gt;{/dede:trim} 
{dede:trim}</tr>{/dede:trim} 
{dede:trim}<tbody([^>]*)&gt;([^&gt;]*)</tbody>{/dede:trim} 
{dede:trim}<tbody>{/dede:trim} 
{dede:trim}</tbody>{/dede:trim} 
[时间:2008-11-20]
相关文章