SearchEngine

所属分类:搜索引擎
开发工具:Python
文件大小:0KB
下载次数:0
上传日期:2023-10-19 05:47:20
上 传 者sh-1993
说明:  新闻搜索引擎,实现倒排索引等基本功能,
(News search engine, realizing basic functions such as inverted index,)

文件列表:
searchEngine/ (0, 2023-12-26)
searchEngine/.idea/ (0, 2023-12-26)
searchEngine/.idea/dbnavigator.xml (22543, 2023-12-26)
searchEngine/.idea/inspectionProfiles/ (0, 2023-12-26)
searchEngine/.idea/inspectionProfiles/Project_Default.xml (1762, 2023-12-26)
searchEngine/.idea/inspectionProfiles/profiles_settings.xml (174, 2023-12-26)
searchEngine/.idea/misc.xml (185, 2023-12-26)
searchEngine/.idea/modules.xml (276, 2023-12-26)
searchEngine/.idea/searchEngine.iml (284, 2023-12-26)
searchEngine/code/ (0, 2023-12-26)
searchEngine/code/convert_json_to_xml.py (1986, 2023-12-26)
searchEngine/code/index_module.py (3856, 2023-12-26)
searchEngine/code/recommendation_module.py (5788, 2023-12-26)
searchEngine/code/setup.py (901, 2023-12-26)
searchEngine/config.ini (315, 2023-12-26)
searchEngine/data/ (0, 2023-12-26)
searchEngine/data/idf.txt (3079905, 2023-12-26)
searchEngine/data/ir.db (39940096, 2023-12-26)
searchEngine/data/new_xml/ (0, 2023-12-26)
searchEngine/data/new_xml/1.xml (4341, 2023-12-26)
searchEngine/data/new_xml/10.xml (2245, 2023-12-26)
searchEngine/data/new_xml/100.xml (7093, 2023-12-26)
searchEngine/data/new_xml/1000.xml (2327, 2023-12-26)
searchEngine/data/new_xml/101.xml (4332, 2023-12-26)
searchEngine/data/new_xml/102.xml (8235, 2023-12-26)
searchEngine/data/new_xml/103.xml (2362, 2023-12-26)
searchEngine/data/new_xml/104.xml (5918, 2023-12-26)
searchEngine/data/new_xml/105.xml (5228, 2023-12-26)
searchEngine/data/new_xml/106.xml (512, 2023-12-26)
searchEngine/data/new_xml/107.xml (4156, 2023-12-26)
searchEngine/data/new_xml/108.xml (1431, 2023-12-26)
searchEngine/data/new_xml/109.xml (4559, 2023-12-26)
searchEngine/data/new_xml/11.xml (10048, 2023-12-26)
searchEngine/data/new_xml/110.xml (3444, 2023-12-26)
searchEngine/data/new_xml/111.xml (237, 2023-12-26)
searchEngine/data/new_xml/112.xml (972, 2023-12-26)
searchEngine/data/new_xml/113.xml (3437, 2023-12-26)
searchEngine/data/new_xml/114.xml (5017, 2023-12-26)
... ...

# 新闻搜索引擎 简易的搜索引擎 ## 技术栈 前端:HTML,Django语法 后端:flask 数据库:sqlite3 ## 基本功能 - 检索模块 - 单词检索:北京 - 多词检索:北京 奥运会 - 句子检索:我要去北京看奥运会 - 排序模块 - 相关度排序 - 热度排序 - 时间排序 - 搜索条件扩展 - 搜索深圳,会提示广州,宝安区等信息 - 搜索结果得分 - 每一个结果标题后面会有得分,分数越高越好 - 搜索词高亮 - 搜索内容分行 - 推荐阅读 - 整套UI界面 ## 数据来源 公开的新闻数据:250万篇新闻,2014-2016年 链接: https://pan.baidu.com/s/16wXK8YgJzGnrDTn6ffjmEg 提取码: cvj3 json格式:title标题,content正文,keywords关键词,desc描述,source来源 ```json { "news_id": "610130831", "keywords": "导游,门票", "title": "故宫淡季门票40元 “黑导游”卖外地客140元", "desc": "近日有网友微博爆料称,故宫午门广场售票处出现“黑导游”,专门向外地游客出售高价门票。昨日,记者实地探访故宫,发现“黑导游”确实存在。窗口出售", "source": "新华网", "time": "03-22 12:00", "content": "近日有网友微博爆料称,故宫午门广场售票处出现“黑导游”,专门向外地游客出售高价门票。昨日,记者实地探访故宫,发现“黑导游”确实存在。窗口出售40元的门票,被“黑导游”加价出售,最高加到140元。故宫方面表示,请游客务必通过正规渠道购买门票,避免上当受骗遭受损失。目前单笔门票购买流程不过几秒钟,耐心排队购票也不会等待太长时间。....再反弹”的态势,打击黑导游需要游客配合,通过正规渠道购买门票。" } ``` ## 目录 ``` searchEngine ├─ README.md·································//项目介绍 ├─ requirements.txt··························//项目依赖库 ├─ code │ ├─ convert_json_to_xml.py···············//将json数据提取并转换为对应格式的xml │ ├─ index_module.py │ ├─ recommendation_module.py │ └─ setup.py·····························//构建倒排索引以及推荐阅读(用index_module.py与recommendation_module.py) ├─ config.ini································//路径配置文件,根据需要进行修改 ├─ data │ ├─ idf.txt······························//计算的词频 │ ├─ ir.db································//数据库文件(每次执行setup.py都会重写里面的数据) │ ├─ learning_source │ │ └─ sgns.sogounews.bigram-char······//扩展搜索需要的词库 │ ├─ new_xml······························//本地xml文件,此处只列出5个 │ │ ├─ 1.xml │ │ ├─ 10.xml │ │ ├─ 100.xml │ │ ├─ 1000.xml │ │ ├─ 1001.xml │ └─ stop_words.txt·······················//停用词 └─ web ├─ main.py····························//执行总文件 ├─ search_engine.py···················//测试三种排序得分 ├─ static·····························//静态UI图片 │ ├─ abstract.jpg │ ├─ duck.png │ ├─ shark.png │ ├─ sleep.jpg │ ├─ star.png │ ├─ warma3.jpg │ └─ warma_happy.jpg └─ templates··························//前端文件(Django语法) ├─ content.html ├─ high_search.html ├─ next.html └─ search.html ``` ## 使用方法 ``` git clone https://github.com/Nomination-NRB/SearchEngine ``` 在vscode或者其他编译器打开项目文件夹 激活本项目具体使用的环境,切换到requirements.txt目录下在终端执行该命令即可 ``` pip install -r requirements.txt ``` **注意注意注意**:词汇扩展所需的词库需要自己下载:[词库](https://pan.baidu.com/s/1svFOwFBKnnlsqrF1t99Lnw) 下载后将文件解压放到路径:**searchEngine/data/learning_source/** ## 运行 1. 使用现成数据库里的数据 1. 运行main.py文件,打开本地链接即可(由于使用词库扩展搜索,运行时间较长,第一次运行大概1-2min) 2. 使用自己的数据 1. 根据自己的数据特点,将数据存储到xml文件中(可以参考convert_json_to_xml.py) 2. 运行setup.py构建倒排索引,推荐阅读,更新词频,数据库文件 3. 运行main.py文件,打开本地链接即可(由于使用词库扩展搜索,运行时间较长,第一次运行大概1-2min) ## 参考 [01joy/news-search-engine: 新闻搜索引擎 (github.com)](https://github.com/01joy/news-search-engine)

近期下载者

相关文件


收藏者