51job_spiders
所属分类:数据采集/爬虫
开发工具:HTML
文件大小:6733KB
下载次数:0
上传日期:2022-04-24 02:54:27
上 传 者:
sh-1993
说明: 前程无忧爬虫
(51job Crawler)
文件列表:
51job.xls (892928, 2023-06-19)
51job2.xls (257024, 2023-06-19)
51job_clean.py (2908, 2023-06-19)
51job_info.py (4738, 2023-06-19)
51job_view.py (4668, 2023-06-19)
chromedriver.exe (12273664, 2023-06-19)
大数据城市需求分布图.html (26536, 2023-06-19)
学历要求动态饼图.html (5532, 2023-06-19)
工作经验要求漏斗图.html (4234, 2023-06-19)
# 51job_spiders
前程无忧爬虫
【程序运行前确保项目需要的库都已下载】
# 数据爬取:
```
1、修改51job_info.py代码66行,根据需要修改页数,默认2页,数据分析需要海量数据时可修改成1000页
2、运行51job_info.py
3、输入职位关键词 如:大数据、C语言、软件开发
4、爬取到的数据将储存在51job.xls
```
程序中注释内容包含大量调试信息,遇到异常时可以打开注释,查看运行情况
爬取过程中因为单页内容较多,请耐心等候
如果程序未能爬取到信息,可能的原因是缺少包,或者该网页源码被修改,需要重新定义正则
# 数据清洗与数据可视化
```
1、运行51job_clean.py
2、代码默认对职位的清洗条件的非大数据相关的职位,需要根据你们搜索的职位自行修改
3、清洗后的数据将储存在51job2.xls,(若清洗后的数据中还有错误数据,可修改清洗条件或手动将错误数据删除)
4、运行51job_view.py
4、pyecharts动态图将生成 .html 文件,用浏览器打开即可
```
详细过程可见博客:https://www.cnblogs.com/mehong/p/17485487.html
近期下载者:
相关文件:
收藏者: