NewsWebsite-crawler
所属分类:数据采集/爬虫
开发工具:PHP
文件大小:4KB
下载次数:0
上传日期:2019-02-01 05:59:40
上 传 者:
sh-1993
说明: 非常通用的新闻网页正文和图片抓取
(Very versatile news webpage text and image capture)
文件列表:
TextExtract.php (9616, 2019-02-01)
test.php (327, 2019-02-01)
# NewsWebsite-crawler
通用的新闻网页正文和图片抓取
源代码在【陈鑫】代码基础上做了一些优化:https://github.com/amumu/cx-extractor
优化点:
1、网页gbk还是utf8格式更加精准
2、行列分布函数,不会只取一个最大封闭面积,在误差系数范围内的面积都会抽取出来。
3、增加图片抓取。在正文行列分布间隙中的图片会抓取出来。
4、增加了一些过滤。尤其是网页标签头文字等。
近期下载者:
相关文件:
收藏者: