news_crawler

所属分类:数据采集/爬虫
开发工具:Python
文件大小:0KB
下载次数:0
上传日期:2024-02-20 08:33:54
上 传 者sh-1993
说明:  news crawler,新闻爬虫
(News crawler)

文件列表:
.idea/
oldCrawler/
.DS_Store

# readmemd #### python课程设计————网络爬虫[已失效] ###### 本文旨在对已知网站建立网络爬虫爬取数据并进行数据存储与分析。 ###### 此方法我们多次使用自己创建的包。 .py文件是代码文件,.exe是可执行文件。可通过执行程序理解代码。 Login.py文件是主程序,用于打开登陆注册界面。 enroll.py文件是图形显示注册界面。 enr.py文件是将数据库与注册信息进行对比和写入功能 find_user.py文件是登陆时向数据库查询用户是否能够登录的信息 Gui.py文件,其内容是本文的用户交互界面,主要内容包括: 按钮:开始爬取数据 弹窗:爬取已开始 爬取已结束 爬取完成后显示按钮:词云图 柱形图 存入数据库,并且将数据库保存到本地 Get.py,其内容是对网站内容进行分析,并获取网页源码。 其内容是对网站获取的内容进行保存。 dispose_data.py文件 其内容是对保存的文本文件进行分析,并作图显示==柱形图……==,==然后对最常出现的词汇进行图云制作。== database.py文件,其内容是清空数据库,并对获取到的前100高频词汇写入数据库。 3.png是保存的词云图。 help.txt是保存软件开发作者以及开发时间,和告知用户需要爬取的访问网址。 result.xls是保存用户保存的100个最高频词汇的excel表格 log.log是记录用户爬取的新闻网内网址以及爬取时间的日志 news.txt是爬取到的新闻的文本信息。、 ditu.png是词云图的模板样式。 #### ==看网站内容是否为按照页数排序,如是可异步/协程进行大量数据分析,但对网站的服务器可能造成影响,需小心使用== 最后,爬虫有风险,请谨慎使用。

近期下载者

相关文件


收藏者