内容过滤是我们文章采集的好帮手,他可以帮助我们过滤任何不想要的页面属性。
正文内容中包含了作者信息、广告、版权声明等这些无用信息,我们需要从正文内容中过滤掉这些内容,这些内容是变化的,每篇文章都不一样,所以是无法直接用字符串替换函数去除的,胖鼠采集提供了非常简单的去除方式。
- img
- class
- p
- div
还可以指定处理第几个某某属性,内容过滤选择器参数不光可以定义要移除的内容还可以定义要保留的内容,多个值之间用空格隔开
<html> <div id="content"> <p>这是正文内容广告9......</p> <span class="tt">作者:xxx</span> 这是正文内容段落1..... <img src='xxxxxxxx'......> <span>这是正文内容段落2</span> <p>这是正文内容段落3......</p> <img src='xxxxxxxx'......> <p>这是正文内容段落3......</p> <a href="http://www.fatrat.cn">胖鼠采集官网</a> <span>这是广告</span> <p>这是版权声明!</p> </div> </html>
原创文章,作者:Tony,如若转载,请注明出处:https://www.xxside.com/1906.html
思德心语,壹群:799239814