job_spider

所属分类:数值算法/人工智能
开发工具:Python
文件大小:77KB
下载次数:0
上传日期:2018-12-23 15:57:10
上 传 者sh-1993
说明:  本项目用于爬取前程无忧、智联招聘、拉勾等招聘网站发布的招聘信息,包括岗位名称、岗位要求、公司名称、经验要求等近30个字段,可用于对目前不同地区、行业招聘市场的数据分析中。
(This project is used to access recruitment information published by 51job, Zhilian recruitment, LaGou and other recruitment websites, including nearly 30 fields such as job name, job requirements, company name, experience requirements, etc., which can be used for data analysis of current recruitment markets in different regions and industries.)

文件列表:
jobSpider (0, 2018-12-23)
jobSpider\__init__.py (0, 2018-12-23)
jobSpider\items.py (2622, 2018-12-23)
jobSpider\main.py (197, 2018-12-23)
jobSpider\middlewares.py (3603, 2018-12-23)
jobSpider\pipelines.py (1598, 2018-12-23)
jobSpider\qcwySpiderResult.png (78469, 2018-12-23)
jobSpider\qcwy_job.sql (3447, 2018-12-23)
jobSpider\settings.py (3279, 2018-12-23)
jobSpider\spiders (0, 2018-12-23)
jobSpider\spiders\__init__.py (161, 2018-12-23)
jobSpider\spiders\qcwySpider.py (6152, 2018-12-23)
scrapy.cfg (261, 2018-12-23)

# job_spider --- ## 1. 项目介绍 本项目用于爬取前程无忧、智联招聘、拉勾等招聘网站发布的招聘信息,包括岗位名称、岗位要求、公司名称、经验要求等近30个字段,可用于对目前不同地区、行业招聘市场的数据分析中。 #### 目前已完成爬虫: - 前程无忧网手机APP爬虫。 - ...... 其他网站爬虫将在后续完成后上传。 ## 2. 爬虫设计 ### 2.1 前程无忧网手机APP爬虫 #### 技术路线: **爬虫框架**:scrapy **数据抓取**:scrapy.Selector **数据存储**:Twisted+MySQL 关于爬虫的设计思路和分析流程,将在个人博客中进行详细说明: https://www.cnblogs.com/chenhuabin/p/101***618.html ## 3. 下载 **下载源码** git方式下载:git@github.com:ChenHuabin321/job_spider.git 或者直接到下载zip源码包,地址为:https://github.com/ChenHuabin321/job_spider **安装依赖** Scrapy==1.5.0 Twisted==18.4.0 **数据库配置** 以下是settings.py中的默认数据库配置,可进行修改为你的数据库配置: MYSQL_HOST = '192.168.56.101'#主机 MYSQL_PASSWORD = '123456'#密码 MYSQL_DBNAME = 'job_spider'#数据库名 ## 4. 采集效果 前程无忧网手机APP爬虫采集结果如下所示: ![前程无忧手机APP爬虫采集结果图](https://github.com/ChenHuabin321/job_spider/blob/master/jobSpider/qcwySpiderResult.png)

近期下载者

相关文件


收藏者