news_collector
所属分类:Python工具库
开发工具:Python
文件大小:0KB
下载次数:0
上传日期:2022-07-29 22:29:38
上 传 者:
sh-1993
说明: 从公共新闻页面收集新闻文章
(Collect news articles from puplic news pages)
文件列表:
.vscode/ (0, 2021-05-23)
.vscode/settings.json (66, 2021-05-23)
Dockerfile (265, 2021-05-23)
news_collector/ (0, 2021-05-23)
news_collector/__init__.py (0, 2021-05-23)
news_collector/items.py (1101, 2021-05-23)
news_collector/middlewares.py (5567, 2021-05-23)
news_collector/runner.py (639, 2021-05-23)
news_collector/settings.py (3947, 2021-05-23)
news_collector/spiders/ (0, 2021-05-23)
news_collector/spiders/__init__.py (161, 2021-05-23)
news_collector/spiders/base_spider.py (2114, 2021-05-23)
news_collector/spiders/golem_spider.py (7064, 2021-05-23)
news_collector/spiders/ntv_spider.py (5234, 2021-05-23)
news_collector/spiders/spiegel_spider.py (5649, 2021-05-23)
news_collector/spiders/tagesschau_spider.py (5125, 2021-05-23)
news_collector/spiders/zeit_spider.py (7100, 2021-05-23)
news_collector/top_level_formatter.py (915, 2021-05-23)
pipelines/ (0, 2021-05-23)
pipelines/article_pipeline.py (2300, 2021-05-23)
pipelines/mongodb_pipeline.py (3268, 2021-05-23)
requirements.txt (29, 2021-05-23)
run.py (243, 2021-05-23)
scrapy.cfg (271, 2021-05-23)
scripts/ (0, 2021-05-23)
scripts/merge_authors_collection.py (1963, 2021-05-23)
# news_collector
Collect news articles from puplic news pages and saves them into a mongoDB.
## Crawlers
Currently support for four main german news pages
* https://www.n-tv.de/ (ntv)
* https://www.spiegel.de/ (spiegel)
* https://www.tagesschau.de/ (tagesschau)
* https://www.zeit.de/ (zeit)
* https://www.golem.de/ (golem) (it-news)
Run a crawler with `scrapy crawl ntv`.
More information at [Scrapy](https://docs.scrapy.org/en/latest/topics/spiders.html) and [MongoDB](https://docs.mongodb.com/manual/)
## What it does
1. Crawls articles from the homepages and their references articles (`named_references`) inside the text (see above) of german newspages.
2. Every spider must be run on its own
3. Not all homepage articles are parsed, only the first few
4. Use `self.total_parsed` inside each spider to define a maximum of articles (otherwise spiders could run extremely long)
5.
6. Article information is saved to the collection `articles` in a mongo db called `news` (hosted locally)
7. Article raw html is saved to the collection `metadata`in a mongo db called `news` (hosted locally)
Example data for an article about [football during corona](https://www.n-tv.de/sport/Mediziner-haelt-Fussball-mit-Fans-fuer-moeglich-article21785968.html)
{'agency': 'n-tv',
'authors': ['Max Mustermann'],
'category': 'Sport',
'date': 1589751006,
'headline': 'Mediziner hlt Fuball mit Fans für mglich',
'is_update': False,
'kicker': 'Zugang wie zu Ikea?',
'named_references': {'Fuball-Bundesliga': 'https://www.sportschau.de/fussball/bundesliga/spieltag/index.html'},
'tags': ['Fuball-Bundesliga',
'Corona-Krise',
'Pandemien',
'Epidemien',
'Gesundheit',
'Fuball'],
'teaser': 'Der Neustart der Fuball-Bundesliga unter strengen Auflagen sorgt '
'seit Wochen für Diskussionen. Für den Sportmediziner Fritz Srgel '
'hat er den "Charakter einer wissenschaftlichen Studie". Auch die '
'Anwesenheit von Zuschauern bei kommenden Spielen hlt er für '
'machbar - unter bestimmten Voraussetzungen.',
'text': 'Der Pharmakologe und Sportmediziner Fritz Srgel hlt Fuball-Spiele '
'mit einer geringen Anzahl an Zuschauern für bald mglich. "Ich sehe '
'die Mglichkeit der schrittweisen Anpassung", sagte er im Interview '
'mit dem "Klner Stadt-Anzeiger": "Ich wei nicht genau, wie '
'realistisch das ist, aber wenn man sagen knnte: Der Zugang von '
'Menschen zum Stadion kann so geregelt werden wie der Zugang der '
'Kunden zum Ikea, und es wre mglich, im Stadion die notwendigen '
'Abstnde einzuhalten, dann wüsste ich ehrlich gesagt nicht, was '
'dagegen einzuwenden wre, Spiele vor reduziertem Publikum '
'zuzulassen." Dass die Bundesliga den Spielbetrieb wieder aufnimmt, '
'habe den "Charakter einer wissenschaftlichen Studie", sagte Srgel: '
'"Ein solches Konzept, rund 1700 Personen in einer Hygiene-Zone '
'inmitten einer Pandemie konsequent zu testen, ist so noch nie '
'irgendwo durchgeführt worden." In einem Gastbeitrag in der '
'"Mainpost" schrieb der Leiter des Instituts für Biomedizinische und '
'Pharmazeutische Forschung in Nürnberg: "Was aber noch viel wichtiger '
"ist: Ausgerechnet der zu meiner Jugendzeit als 'Proletensport' "
'bezeichnete Fuball knnte Financier werden für den gesamten Sport '
'und das Kulturleben, als er in einer Art Kollateraleffekt '
'wissenschaftliche Grundlagen zu Fragen von Mindestabstand, '
'Kontagiositt und vieler anderer Aspekte der Corona-Krise liefert." '
'Zudem komme dem Videobeweis nun eine neue Bedeutung zu: "In welcher '
'Szene knnte sich Thomas Müller den Virus eingefangen haben, wo der '
'doch gar nicht so krperlich spielt", schrieb Srgel: "Selten war '
'Zeitlupe hilfreicher." Die Ergebnisse des Testversuchs seien zwar '
'nicht reprsentativ. "Es sind weder extrem alte Menschen noch Kinder '
'vertreten. Dennoch werden die Daten ihren Wert haben, denn sie '
'beschreiben eine Gruppe in der Pandemie unter besonderen Umstnden", '
'sagte Srgel. Und glaubt, dass Nationalmannschaftsarzt Tim Meyer, '
'der die Taskforce leitete, sie zusammen mit seiner Saarbrücker '
'Kollegin Barbara Grtner verffentlichen wird. Sie htten das '
'Konzept mit der DFL ausgearbeitet, so der 69-Jhrige im "Klner '
'Stadt-Anzeiger", "und ich nehme an, sie werden genügend akademischen '
'Ehrgeiz haben, es selbst zu publizieren. Und ich hoffe schnell."',
'url': 'https://www.n-tv.de/sport/Mediziner-haelt-Fussball-mit-Fans-fuer-moeglich-article21785968.html',
'raw': 'raw html'}
近期下载者:
相关文件:
收藏者: