python(1)-实现简单的图片爬虫

原创 2017年12月26日 21:53:33

因为最近在做课程设计,要用python实现网络图片的爬虫,所以特地记录下学到的东西及遇到的坑。

首先,代码来自:

https://www.cnblogs.com/mqxs/p/7771835.html

具体如下:

import re
import urllib.request

# ------ 获取网页源代码的方法 ---
def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

# ------ getHtml()内输入任意帖子的URL ------
html = getHtml("https://tieba.baidu.com/p/5352556650")
# ------ 修改html对象内的字符编码为UTF-8 ------
html = html.decode('UTF-8')

# ------ 获取帖子内所有图片地址的方法 ------
def getImg(html):
    # ------ 利用正则表达式匹配网页内容找到图片地址 ------
    reg = r'src="([.*\S]*\.jpg)"'
    imgre = re.compile(reg);
    imglist = re.findall(imgre, html)
    return imglist

imgList = getImg(html)
imgName = 0
for imgPath in imgList:
    # ------ 这里最好使用异常处理及多线程编程方式 ------
    try:
        f = open('D:\\Temp\\'+ str(imgName)+".jpg", 'wb')
        f.write((urllib.request.urlopen(imgPath)).read())
        print(imgPath)
        f.close()
    except Exception as e:
        print(imgPath+" error")
    imgName += 1

print("All Done!")

这是一段很简单的代码,然后只需要把其中的url改成自己想要爬去的网站就可以了。
但是我遇到了一些问题:

urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:777)>

主要的问题就是

SSL: CERTIFICATE_VERIFY_FAILED

所以解决这个问题的方法来自于这里:

https://stackoverflow.com/questions/27835619/urllib-and-ssl-certificate-verify-failed-error

具体做法是在代码中添加这两行:

import ssl

ssl._create_default_https_context = ssl._create_unverified_context

然后问题纠结了,并且顺利实现了网络图片的爬取。

版权声明:本文博主原创,有需要请联系我。

Python爬虫——爬取网站的图片

爬虫这东西最早出现在我大学计算机网络的课程上面,我们当时的老师人很好,期末不笔试,他说这东西笔试没什么用,对于一个年纪比较大的老师来讲,能提出这种方式,实在难得。当时在考虑做一个与网络有关的东西好,第...
  • iaiti
  • iaiti
  • 2015年11月19日 15:04
  • 23501

python网络爬虫抓取图片

利用python抓取网络图片的步骤: 1.根据给定的网址获取网页源代码 2.利用正则表达式把源代码中的图片地址过滤出来 3.根据过滤出来的图片地址下载网络图片 import re import...
  • longshengguoji
  • longshengguoji
  • 2013年08月13日 13:21
  • 29632

Python爬虫学习笔记一:简单网页图片抓取

利用python抓取网络图片的步骤是: 1、根据给定的网址获取网页源代码 2、利用正则表达式把源代码中的图片地址过滤出来 3、根据过滤出来的图片地址下载网络图片 以下是比较简单的一个抓取某一个百度...
  • feimengjuan
  • feimengjuan
  • 2016年04月15日 18:23
  • 8020

用Python 爬虫爬取贴吧图片

之前一直在看机器学习,遇到了一些需要爬取数据的内容,于是稍微看了看Python爬虫,在此适当做一个记录。我也没有深入研究爬虫,大部分均是参考了网上的资源。先推荐两个Python爬虫的教程,网址分别是h...
  • u012705410
  • u012705410
  • 2015年08月15日 20:34
  • 6275

python爬虫之抓取网页中的图片到本地

最近开始学习python,python的爬虫诱惑力实在太强。今天看着网上的教程,也学会了这样一个小功能 主要步骤是: 1.抓取网页 2.获取图片地址 3.抓取图片内容并保存到本地 下面是关键代...
  • u012680593
  • u012680593
  • 2016年03月26日 20:02
  • 7841

python学习(7):python爬虫之爬取动态加载的图片,以百度图片为例

前言:前面我们爬取图片的网站都是静态的,在页面中右键查看源码就能看到网页中图片的位置。这样我们用requests库得到页面源码后,再用bs4库解析标签即可保存图片到本地。当我们在看百度图片时,右键–检...
  • qq_32166627
  • qq_32166627
  • 2017年03月08日 21:35
  • 6151

python爬虫爬取斗图网上图片

#-*- coding:utf-8 -*- """ 最基础的python爬取图片的程序,目前在学习阶段,程序思路: ①首先得到网页上的图片的分类 ②根据图片的分类url,进入到相应的网页,得到这个分...
  • u014737310
  • u014737310
  • 2017年05月23日 11:53
  • 531

Python爬虫入门——爬取贴吧图片

最近忽然想听一首老歌,“I believe”  于是到网上去搜,把几乎所有的版本的MV都看了一遍(也是够无聊的),最喜欢的还是最初版的《我的野蛮女友》电影主题曲的哪个版本,想起女神全智贤,心血来潮,于...
  • z49434574
  • z49434574
  • 2016年06月01日 00:40
  • 4345

Python简单爬取图片实例

零基础详细讲解python爬取网站图片下载到本地的简单实例
  • Cloudox_
  • Cloudox_
  • 2016年12月05日 15:38
  • 10288

python爬虫爬取美女图片

python 爬虫爬取美女图片 #coding=utf-8 import urllib import re import os import time import threading ...
  • u013480667
  • u013480667
  • 2015年04月10日 22:49
  • 1298
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:python(1)-实现简单的图片爬虫
举报原因:
原因补充:

(最多只允许输入30个字)