关闭
当前搜索:

Python爬虫实战:2017中国最好大学排名

抓取内容: 从最好大学网上抓取中国前10的大学排名、大学名称、总分,并数据格式左对齐。http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html 首先,看下网站的Robots协议,没有找到相关协议,可以抓取。http://www.zuihaodaxue.cn/robots.txt 接下来开始整理思路: 获取网页信息填充列表数据输出列表...
阅读(466) 评论(0)

Python爬虫利器:BeautifulSoup库

Beautiful Soup parses anything you give it, and does the tree traversal stuff for you.  BeautifulSoup库是解析、遍历、维护 “标签树” 的功能库(遍历,是指沿着某条搜索路线,依次对树中每个结点均做一次且仅做一次访问)。https://www.crummy.com/software/Beautifu...
阅读(167) 评论(0)

Python爬虫:HTTP协议、Requests库

HTTP协议: HTTP(Hypertext Transfer Protocol):即超文本传输协议。URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源。 HTTP协议对资源的操作: Requests库提供了HTTP所有的基本请求方式。官方介绍:http://www.python-requests.org/en/master Requests库的6个...
阅读(426) 评论(0)

网络爬虫,如何做到 “盗亦有道” ?

网络爬虫的实质,其实是从网络上“偷”数据。通过网络爬虫,我们可以采集到所需要的资源,但是同样,使用不当也可能会引发一些比较严重的问题。 因此,在使用网络爬虫时,我们需要做到“盗亦有道”。 网络爬虫主要分为以下三类: 1. 小规模,数据量小,爬取速度不敏感;对于这类网络爬虫我们可以使用Requests库来实现,主要用于爬取网页; 2. 中规模,数据规模较大,爬取速度敏感;对于这类网络爬虫我们...
阅读(390) 评论(0)

Python爬虫:新浪新闻详情页的数据抓取(函数版)

上一篇文章《Python爬虫:抓取新浪新闻数据》详细解说了如何抓取新浪新闻详情页的相关数据,但代码的构建不利于后续扩展,每次抓取新的详情页时都需要重新写一遍,因此,我们需要将其整理成函数,方便直接调用。 详情页抓取的6个数据:新闻标题、评论数、时间、来源、正文、责任编辑。 首先,我们先将评论数整理成函数形式表示: import requests import json import re...
阅读(303) 评论(0)

Python爬虫:抓取新浪新闻数据

案例一 抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称、时间、链接。 完整代码: from bs4 import BeautifulSoup import requests url = 'http://news.sina.com.cn/china/' web_data = requests.get(url)...
阅读(765) 评论(0)

Python爬虫:如何爬取分页数据?

上一篇文章《Python爬虫:爬取人人都是产品经理的数据》中说了爬取单页数据的方法,这篇文章详细解释如何爬取多页数据。 爬取对象: 有融网理财项目列表页【履约中】状态下的前10页数据,地址:https://www.yrw.com/products/list-all-all-performance-1-createTimeDesc-1.html 编程思路: 1. 寻找分页地址的变动规律 2...
阅读(664) 评论(0)

Python爬虫:爬取人人都是产品经理的数据

爬取内容: 人人都是产品经理首页(www.woshipm.com)左侧【最新文章】下如图样式的文章标题、浏览量和缩略图。思路: 1. 用BeautifulSoup解析网页 变量名 = BeautifulSoup(网页信息,'lxml') 2. 描述要爬取的内容在哪儿 变量名 = 变量名.select() 3. 爬取出我们想要的内容...
阅读(669) 评论(0)

Python爬虫:学爬虫前得了解的事儿

这是关于Python的第14篇文章,主要介绍下爬虫的原理。 提到爬虫,我们就不得不说起网页,因为我们编写的爬虫实际上是针对网页进行设计的。解析网页和抓取这些数据是爬虫所做的事情。 对于大部分网页来讲,它的代码构成主要包括三种语言:HTML、CSS、JavaScript,我们在爬取数据的时候大部分是从HTML和CSS中爬取。 那么,接下来在学爬虫前我们得了解点下面这些事儿。 首先,需要了解客...
阅读(282) 评论(0)

Python入门:如何使用第三方库?

这是关于Python的第13篇文章,也是关于《编程小白的第1本Python入门书》内容的最后一篇,主要介绍下如何使用第三方库。 1. 第三方库 Python相当于一个手机,第三方库相当于手机里各种各样的APP。 当我们想搭建网站时,可以选择功能全面的Django、轻量的Flask等web框架;当我们想做一个爬虫时,可以使用Scrapy框架;当我们想做数据分析时,可以选择Pandas数据框架等...
阅读(577) 评论(0)

Python入门:类与类的继承

类,是一些有共同特征和行为事物的抽象概念的总和。 1. 定义一个类: 我们使用class来定义一个类,和之前说过的定义函数用def类似。在类里面给变量赋值时,专业术语称之为类的属性。 比如拿可口可乐来举例: class CocaCola: formula = ['caffeine','sugar','water','soda'] # formula意为配方,给变量formu...
阅读(162) 评论(0)

Python入门:数据结构的3个小技巧

这是关于Python的第11篇文章,主要介绍下数据结构的3个小技巧。 排序: 使用sorted函数实现排序。 sorted函数按照长短、大小、英文字母的顺序给每个列表的元素进行排序。这个函数经常在数据展示中使用,其中很重要的一点是sorted函数不会改变列表本身,相当于先复制列表然后做排序整理。 list = [2,45,21,3,2,1] print(sorted(list)) # 数字...
阅读(268) 评论(0)

Python入门:数据结构的4种基本类型

数据结构:通俗点说,就是储存大量数据的容器。这里主要介绍Python的4种基本数据结构:列表、字典、元组、集合。 格式如下: 列表:list = [val1,val2,val3,val4],用中括号;字典:dict = {key1:val1,key2:val2},大括号,且每个元素是带有冒号的key与val的对应关系组;元组:tuple = (val1,val2,val3,val4),...
阅读(268) 评论(0)

用Python设计一个经典小游戏

这是关于Python的第9篇文章,介绍如何用Python设计一个经典小游戏:猜大小。 在这个游戏中,将用到前面我介绍过的所有内容:变量的使用、参数传递、函数设计、条件控制和循环等,做个整体的总结和复习。 游戏规则: 初始本金是1000元,默认赔率是1倍,赢了,获得一倍金额,输了,扣除1倍金额。 玩家选择下注,押大或押小; 输入下注金额; 摇3个骰子,11≤骰子总数≤18为大,3≤骰子总...
阅读(3076) 评论(2)

Python入门:for循环、while循环

Python中有两种循环,分别为:for循环和while循环。 1. for循环 for循环可以用来遍历某一对象(遍历:通俗点说,就是把这个循环中的第一个元素到最后一个元素依次访问一次)。for循环的基本结构如下: 具体看这个案例: 设计一个函数,在桌面创建10个文本,用数字从1-10依次给它们命名。 def text_create(): path = '/Users...
阅读(424) 评论(0)
22条 共2页1 2 下一页 尾页
    个人资料
    • 访问:10661次
    • 积分:318
    • 等级:
    • 排名:千里之外
    • 原创:22篇
    • 转载:0篇
    • 译文:0篇
    • 评论:2条
    文章分类
    文章存档
    最新评论