• 活宝燕
    了解作者
  • Python
    开发工具
  • 1KB
    文件大小
  • zip
    文件格式
  • 0
    收藏次数
  • 10 积分
    下载积分
  • 1
    下载次数
  • 2020-04-29 11:24
    上传日期
打开网页,之后审查元素,根据网页构造,爬取网页中的图片
爬虫.zip
  • 爬虫.py
    1KB
  • 爬虫2.py
    1.1KB
内容介绍
# -*- coding: utf-8 -*- """ Created on Tue Apr 21 13:54:29 2020 @author: 王燕 """ import requests from bs4 import BeautifulSoup from requests.compat import urljoin url='http://news.bnu.edu.cn/sj/gysd/index.htm' head={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'} nexturl=url while nexturl !=None: html=requests.get(nexturl,headers=head) bsObj=BeautifulSoup(html.content,'lxml') allLinks=bsObj.find_all('div',class_='grid') for i in allLinks: imglink=i.find('img')['src'] imglink=urljoin(url,imglink) name=i.find('h3').text print(imglink,name) name=''.join([i for i in name if i not in ('\\','\/',':','*','?','"','<','>','|','“','”')]) img=requests.get(imglink,headers=head) with open(r'E:\研python\课堂练习\图片2/'+name+imglink[-4:],'wb') as f: f.write(img.content) temp=bsObj.find('a',class_='next')['href'] if temp: nexturl=urljoin(nexturl,temp) else: nexturl=None
评论
    相关推荐
    • 网页爬虫插件
      可以快速从建议网站上爬去数据,适合基础薄弱者体验。
    • 网页爬虫工具
      网页爬虫工具网页爬虫工具网页爬虫工具网页爬虫工具网页爬虫工具
    • 网页爬虫程序
      很好的参考资料,应该很有用处,值得好好研究一下的呢!
    • android 网页爬虫
      一个爬昆明公积金网页数据的demo,里面包括各个页面的链接,通过链接拿到网页之后用Jsoup进行解析。
    • 网页爬虫好用
      PClawer 是一款定制功能较强的网页抓取工具,需要用到正则表达式,适合高级用户使用
    • 网页爬虫TELnet
      做软件的看到好的网站总想学习,可是有不能一直在线,所以离线克隆就需要改工具,不能保障100%适当的参考学习是可以的。我们都是从看别人的代码成长的。
    • 网页爬虫jsoup
      网页爬虫jsoup,开源项目,备用,欢迎下载
    • 网页爬虫工具
      用C#写的一个实用的网页爬虫工具,能够自动获取网站中的所有连接并保存在相应文件中,对分析网站结构、寻找网页资源很有帮助。
    • java网页爬虫
      java网页爬虫、直接导入项目即可、可能有不足之处、不惜勿喷
    • java网页爬虫
      很小巧,但也很实用。网页爬虫可以通过主页抓取主页里的链接