NewsWebsite-crawler

所属分类:数据采集/爬虫
开发工具:PHP
文件大小:4KB
下载次数:0
上传日期:2019-02-01 05:59:40
上 传 者sh-1993
说明:  非常通用的新闻网页正文和图片抓取
(Very versatile news webpage text and image capture)

文件列表:
TextExtract.php (9616, 2019-02-01)
test.php (327, 2019-02-01)

# NewsWebsite-crawler 通用的新闻网页正文和图片抓取 源代码在【陈鑫】代码基础上做了一些优化:https://github.com/amumu/cx-extractor 优化点: 1、网页gbk还是utf8格式更加精准 2、行列分布函数,不会只取一个最大封闭面积,在误差系数范围内的面积都会抽取出来。 3、增加图片抓取。在正文行列分布间隙中的图片会抓取出来。 4、增加了一些过滤。尤其是网页标签头文字等。

近期下载者

相关文件


收藏者