2018-02-03

拒绝撕逼，用数据来告诉你选择器到底哪家强

背景前几天写了一篇文章，爬虫入门到精通-网页的解析（xpath） - 知乎专栏然后有人问我，xpath速度比bs4快么?说实话，我也不太清楚。。。还有人说，“XPATH是最快的”,那么xpath,bs4,pyquery到底谁比较快呢？作为一个严谨的程序员，我们必须拿数据说话测试环境硬件环境：操作系统：Windows7 64 处理器：Inter(R)Xeon(R) CPU E5-2650 v3 内存：8G 软件环境： pyquery:1.2.17 lxml:3.7.3 bs4:4.5.1 parsel:1.1.0 测试代码 1 2 3 4 5 6 7 8 9 10 11

继续阅读全文 »

2018-02-03

爬虫

爬虫之异步加载（实战花瓣网）

本文章属于爬虫入门到精通系统教程第八讲本次我们会讲解两个知识点 1. 异步加载 2. headers中的Accept 本次我们要抓取的是花瓣网美女照片美女花瓣，陪你做生活的设计师（发现、采集你喜欢的美女图片）花瓣网（http://huaban.com/favorite/beauty/）本次我们会用到的辅助包 scrapy/parsel （https://github.com/scrapy/parsel）(假如你用过scrapy,那么一定不陌生，这就是其中提取器) Parsel is a library to extract data from HTML and XML usin

继续阅读全文 »

2018-02-03

爬虫

headers的详细讲解

本文章属于爬虫入门到精通系统教程第七讲直接开始案例吧。本次我们实现如何模拟登陆知乎。 1.抓包首先打开知乎登录页知乎 - 与世界分享你的知识、经验和见解注意打开开发者工具后点击“preserve log”，密码记得故意输入错误，然后点击登录我们很简单的就找到了我们需要的请求 1 2 3 _xsrf:81aa4a69cd410c3454ce515187f2d4c9 password:*** email:admin@wuaics.cn 可以看到请求一共有三个参数 email 和password就是我们需要登录的账号及密码那么_xsrf是什么？我们在哪能找到？

继续阅读全文 »

2018-02-03

爬虫

网页的解析之XPATH

本文章属于爬虫入门到精通系统教程第六讲在爬虫入门到精通第五讲中，我们了解了如何用正则表达式去抓取我们想要的内容.这一章我们来学习如何更加简单的来获取我们想要的内容. xpath的解释 XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。 XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。 XPath的基本使用要使用xpath我们需要下载lxml，在爬虫入门到精通-环境的

继续阅读全文 »

2018-02-03

爬虫

网页的解析之正则表达式

在爬虫入门到精通第四讲中，我们了解了如何下载网页，这一节就是如何从下载的网页中获取我们想要的内容 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 html = u""" 文章的标题

h1文字

Input