news_crawler 联合开发网

Pudn.com > 下载中心 > 数据采集/爬虫 > news_crawler

news_crawler

所属分类：数据采集/爬虫
开发工具：Python
文件大小：0KB
下载次数：0
上传日期：2024-02-20 08:33:54
上传者：sh-1993

说明： news crawler,新闻爬虫
(News crawler)

文件列表:

.idea/
oldCrawler/
.DS_Store

# readmemd #### python课程设计————网络爬虫[已失效] ###### 本文旨在对已知网站建立网络爬虫爬取数据并进行数据存储与分析。 ###### 此方法我们多次使用自己创建的包。 .py文件是代码文件，.exe是可执行文件。可通过执行程序理解代码。 Login.py文件是主程序，用于打开登陆注册界面。 enroll.py文件是图形显示注册界面。 enr.py文件是将数据库与注册信息进行对比和写入功能 find_user.py文件是登陆时向数据库查询用户是否能够登录的信息 Gui.py文件，其内容是本文的用户交互界面，主要内容包括：按钮：开始爬取数据弹窗：爬取已开始爬取已结束爬取完成后显示按钮：词云图柱形图存入数据库，并且将数据库保存到本地 Get.py,其内容是对网站内容进行分析，并获取网页源码。其内容是对网站获取的内容进行保存。 dispose_data.py文件其内容是对保存的文本文件进行分析，并作图显示==柱形图……==，==然后对最常出现的词汇进行图云制作。== database.py文件，其内容是清空数据库，并对获取到的前100高频词汇写入数据库。 3.png是保存的词云图。 help.txt是保存软件开发作者以及开发时间，和告知用户需要爬取的访问网址。 result.xls是保存用户保存的100个最高频词汇的excel表格 log.log是记录用户爬取的新闻网内网址以及爬取时间的日志 news.txt是爬取到的新闻的文本信息。、 ditu.png是词云图的模板样式。 #### ==看网站内容是否为按照页数排序，如是可异步/协程进行大量数据分析，但对网站的服务器可能造成影响，需小心使用== 最后，爬虫有风险，请谨慎使用。

近期下载者：

相关文件：

评论：[我要评论] [举报此文件]

收藏者：