news-search-engine

所属分类:搜索引擎
开发工具:Python
文件大小:0KB
下载次数:0
上传日期:2023-12-23 08:28:25
上 传 者sh-1993
说明:  一个简单的新闻搜索引擎
(A simple news search engine)

文件列表:
.idea/
Functional_code/
data/
agencyID.txt
config.ini

# 一个简单的新闻搜索引擎 这是一个基于Python的新闻搜索平台能够爬取超过一万条网页新闻,它使用多线程和代理IP的爬虫技术,从互联网上抓取指定日期范围内的新闻网页,并对其进行倒排索引和BM25相关性评分,检索结果支持按相关性、时间、热度进行排序,以便用户快速检索感兴趣的新闻。系统的后端使用Flask框架搭建,前端使用JS和CSS实现网页的美化和交互功能,例如将用户输入的关键字在搜索结果中标红显示。此外,系统还利用TF-IDF算法计算任意两个新闻网页之间的相似度,并为每个新闻推荐一些相关的新闻,以增加用户的浏览体验。 ## 使用 (爬虫的代理IP要自己找) spider.py --爬虫程序爬取新闻 index.py --建立倒排索引,并存储到数据库文件 search.py --根据指定算法检索新闻 recommend.py --建立新闻推荐(一个特别大的稀疏矩阵,新闻数据多了就用不了了) main.py --运行 工程里面有一些文件是没有用的,只是用来测试的 运行环境是python 3.10 ## 运行结果 ![搜索页](https://github.com/duyaya18/news-search-engine/assets/138270990/c6ab4ec5-3df3-44a9-8e29-9a61d6e1e3fa) ![搜索结果](https://github.com/duyaya18/news-search-engine/assets/138270990/05bce062-e630-4eaf-b302-f1ebeec085aa) 这是刚学习完搜索引擎这门课程的课程设计作业,在完成的过程中也是一边学习github上大佬的作品一边完成的。还有许多需要改进的地方,因为时间问题就没有再继续做了。

近期下载者

相关文件


收藏者