news_crawler
所属分类:数据采集/爬虫
开发工具:Python
文件大小:0KB
下载次数:0
上传日期:2024-02-20 08:33:54
上 传 者:
sh-1993
说明: news crawler,新闻爬虫
(News crawler)
文件列表:
.idea/
oldCrawler/
.DS_Store
# readmemd
#### python课程设计————网络爬虫[已失效]
###### 本文旨在对已知网站建立网络爬虫爬取数据并进行数据存储与分析。
###### 此方法我们多次使用自己创建的包。
.py文件是代码文件,.exe是可执行文件。可通过执行程序理解代码。
Login.py文件是主程序,用于打开登陆注册界面。
enroll.py文件是图形显示注册界面。
enr.py文件是将数据库与注册信息进行对比和写入功能
find_user.py文件是登陆时向数据库查询用户是否能够登录的信息
Gui.py文件,其内容是本文的用户交互界面,主要内容包括:
按钮:开始爬取数据
弹窗:爬取已开始
爬取已结束
爬取完成后显示按钮:词云图
柱形图
存入数据库,并且将数据库保存到本地
Get.py,其内容是对网站内容进行分析,并获取网页源码。
其内容是对网站获取的内容进行保存。
dispose_data.py文件
其内容是对保存的文本文件进行分析,并作图显示==柱形图……==,==然后对最常出现的词汇进行图云制作。==
database.py文件,其内容是清空数据库,并对获取到的前100高频词汇写入数据库。
3.png是保存的词云图。
help.txt是保存软件开发作者以及开发时间,和告知用户需要爬取的访问网址。
result.xls是保存用户保存的100个最高频词汇的excel表格
log.log是记录用户爬取的新闻网内网址以及爬取时间的日志
news.txt是爬取到的新闻的文本信息。、
ditu.png是词云图的模板样式。
#### ==看网站内容是否为按照页数排序,如是可异步/协程进行大量数据分析,但对网站的服务器可能造成影响,需小心使用==
最后,爬虫有风险,请谨慎使用。
近期下载者:
相关文件:
收藏者: