news_collector

所属分类:Python工具库
开发工具:Python
文件大小:0KB
下载次数:0
上传日期:2022-07-29 22:29:38
上 传 者sh-1993
说明:  从公共新闻页面收集新闻文章
(Collect news articles from puplic news pages)

文件列表:
.vscode/ (0, 2021-05-23)
.vscode/settings.json (66, 2021-05-23)
Dockerfile (265, 2021-05-23)
news_collector/ (0, 2021-05-23)
news_collector/__init__.py (0, 2021-05-23)
news_collector/items.py (1101, 2021-05-23)
news_collector/middlewares.py (5567, 2021-05-23)
news_collector/runner.py (639, 2021-05-23)
news_collector/settings.py (3947, 2021-05-23)
news_collector/spiders/ (0, 2021-05-23)
news_collector/spiders/__init__.py (161, 2021-05-23)
news_collector/spiders/base_spider.py (2114, 2021-05-23)
news_collector/spiders/golem_spider.py (7064, 2021-05-23)
news_collector/spiders/ntv_spider.py (5234, 2021-05-23)
news_collector/spiders/spiegel_spider.py (5649, 2021-05-23)
news_collector/spiders/tagesschau_spider.py (5125, 2021-05-23)
news_collector/spiders/zeit_spider.py (7100, 2021-05-23)
news_collector/top_level_formatter.py (915, 2021-05-23)
pipelines/ (0, 2021-05-23)
pipelines/article_pipeline.py (2300, 2021-05-23)
pipelines/mongodb_pipeline.py (3268, 2021-05-23)
requirements.txt (29, 2021-05-23)
run.py (243, 2021-05-23)
scrapy.cfg (271, 2021-05-23)
scripts/ (0, 2021-05-23)
scripts/merge_authors_collection.py (1963, 2021-05-23)

# news_collector Collect news articles from puplic news pages and saves them into a mongoDB. ## Crawlers Currently support for four main german news pages * https://www.n-tv.de/ (ntv) * https://www.spiegel.de/ (spiegel) * https://www.tagesschau.de/ (tagesschau) * https://www.zeit.de/ (zeit) * https://www.golem.de/ (golem) (it-news) Run a crawler with `scrapy crawl ntv`. More information at [Scrapy](https://docs.scrapy.org/en/latest/topics/spiders.html) and [MongoDB](https://docs.mongodb.com/manual/) ## What it does 1. Crawls articles from the homepages and their references articles (`named_references`) inside the text (see above) of german newspages. 2. Every spider must be run on its own 3. Not all homepage articles are parsed, only the first few 4. Use `self.total_parsed` inside each spider to define a maximum of articles (otherwise spiders could run extremely long) 5. 6. Article information is saved to the collection `articles` in a mongo db called `news` (hosted locally) 7. Article raw html is saved to the collection `metadata`in a mongo db called `news` (hosted locally) Example data for an article about [football during corona](https://www.n-tv.de/sport/Mediziner-haelt-Fussball-mit-Fans-fuer-moeglich-article21785968.html) {'agency': 'n-tv', 'authors': ['Max Mustermann'], 'category': 'Sport', 'date': 1589751006, 'headline': 'Mediziner hlt Fuball mit Fans für mglich', 'is_update': False, 'kicker': 'Zugang wie zu Ikea?', 'named_references': {'Fuball-Bundesliga': 'https://www.sportschau.de/fussball/bundesliga/spieltag/index.html'}, 'tags': ['Fuball-Bundesliga', 'Corona-Krise', 'Pandemien', 'Epidemien', 'Gesundheit', 'Fuball'], 'teaser': 'Der Neustart der Fuball-Bundesliga unter strengen Auflagen sorgt ' 'seit Wochen für Diskussionen. Für den Sportmediziner Fritz Srgel ' 'hat er den "Charakter einer wissenschaftlichen Studie". Auch die ' 'Anwesenheit von Zuschauern bei kommenden Spielen hlt er für ' 'machbar - unter bestimmten Voraussetzungen.', 'text': 'Der Pharmakologe und Sportmediziner Fritz Srgel hlt Fuball-Spiele ' 'mit einer geringen Anzahl an Zuschauern für bald mglich. "Ich sehe ' 'die Mglichkeit der schrittweisen Anpassung", sagte er im Interview ' 'mit dem "Klner Stadt-Anzeiger": "Ich wei nicht genau, wie ' 'realistisch das ist, aber wenn man sagen knnte: Der Zugang von ' 'Menschen zum Stadion kann so geregelt werden wie der Zugang der ' 'Kunden zum Ikea, und es wre mglich, im Stadion die notwendigen ' 'Abstnde einzuhalten, dann wüsste ich ehrlich gesagt nicht, was ' 'dagegen einzuwenden wre, Spiele vor reduziertem Publikum ' 'zuzulassen." Dass die Bundesliga den Spielbetrieb wieder aufnimmt, ' 'habe den "Charakter einer wissenschaftlichen Studie", sagte Srgel: ' '"Ein solches Konzept, rund 1700 Personen in einer Hygiene-Zone ' 'inmitten einer Pandemie konsequent zu testen, ist so noch nie ' 'irgendwo durchgeführt worden." In einem Gastbeitrag in der ' '"Mainpost" schrieb der Leiter des Instituts für Biomedizinische und ' 'Pharmazeutische Forschung in Nürnberg: "Was aber noch viel wichtiger ' "ist: Ausgerechnet der zu meiner Jugendzeit als 'Proletensport' " 'bezeichnete Fuball knnte Financier werden für den gesamten Sport ' 'und das Kulturleben, als er in einer Art Kollateraleffekt ' 'wissenschaftliche Grundlagen zu Fragen von Mindestabstand, ' 'Kontagiositt und vieler anderer Aspekte der Corona-Krise liefert." ' 'Zudem komme dem Videobeweis nun eine neue Bedeutung zu: "In welcher ' 'Szene knnte sich Thomas Müller den Virus eingefangen haben, wo der ' 'doch gar nicht so krperlich spielt", schrieb Srgel: "Selten war ' 'Zeitlupe hilfreicher." Die Ergebnisse des Testversuchs seien zwar ' 'nicht reprsentativ. "Es sind weder extrem alte Menschen noch Kinder ' 'vertreten. Dennoch werden die Daten ihren Wert haben, denn sie ' 'beschreiben eine Gruppe in der Pandemie unter besonderen Umstnden", ' 'sagte Srgel. Und glaubt, dass Nationalmannschaftsarzt Tim Meyer, ' 'der die Taskforce leitete, sie zusammen mit seiner Saarbrücker ' 'Kollegin Barbara Grtner verffentlichen wird. Sie htten das ' 'Konzept mit der DFL ausgearbeitet, so der 69-Jhrige im "Klner ' 'Stadt-Anzeiger", "und ich nehme an, sie werden genügend akademischen ' 'Ehrgeiz haben, es selbst zu publizieren. Und ich hoffe schnell."', 'url': 'https://www.n-tv.de/sport/Mediziner-haelt-Fussball-mit-Fans-fuer-moeglich-article21785968.html', 'raw': 'raw html'}

近期下载者

相关文件


收藏者