拒绝撕逼,用数据来告诉你选择器到底哪家强

背景 前几天写了一篇文章,爬虫入门到精通-网页的解析(xpath) - 知乎专栏 然后有人问我,xpath速度比bs4快么?说实话,我也不太清楚。。。 还有人说,“XPATH是最快的”,那么xpath,bs4,pyquery到底谁比较快呢? 作为一个严谨的程序员,我们必须拿数据说话 测试环境 硬件环境: 操作系统:Windows7 64 处理器:Inter(R)Xeon(R) CPU E5-2650 v3 内存:8G 软件环境: pyquery:1.2.17 lxml:3.7.3 bs4:4.5.1 parsel:1.1.0 测试代码 1 2 3 4 5 6 7 8 9 10 11

继续阅读全文 »

爬虫之异步加载(实战花瓣网)

本文章属于爬虫入门到精通系统教程第八讲 本次我们会讲解两个知识点 1. 异步加载 2. headers中的Accept 本次我们要抓取的是花瓣网美女照片美女花瓣,陪你做生活的设计师(发现、采集你喜欢的美女图片)花瓣网(http://huaban.com/favorite/beauty/) 本次我们会用到的辅助包 scrapy/parsel (https://github.com/scrapy/parsel)(假如你用过scrapy,那么一定不陌生,这就是其中提取器) Parsel is a library to extract data from HTML and XML usin

继续阅读全文 »

headers的详细讲解

本文章属于爬虫入门到精通系统教程第七讲 直接开始案例吧。 本次我们实现如何模拟登陆知乎。 1.抓包 首先打开知乎登录页 知乎 - 与世界分享你的知识、经验和见解 注意打开开发者工具后点击“preserve log”,密码记得故意输入错误,然后点击登录 我们很简单的就找到了 我们需要的请求 1 2 3 _xsrf:81aa4a69cd410c3454ce515187f2d4c9 password:*** email:admin@wuaics.cn 可以看到请求一共有三个参数 email 和password就是我们需要登录的账号及密码 那么_xsrf是什么?我们在哪能找到?

继续阅读全文 »

网页的解析之XPATH

本文章属于爬虫入门到精通系统教程第六讲 在爬虫入门到精通第五讲中,我们了解了如何用正则表达式去抓取我们想要的内容.这一章我们来学习如何更加简单的来获取我们想要的内容. xpath的解释 XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。 XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。 XPath的基本使用 要使用xpath我们需要下载lxml,在爬虫入门到精通-环境的

继续阅读全文 »

网页的解析之正则表达式

在爬虫入门到精通第四讲中,我们了解了如何下载网页,这一节就是如何从下载的网页中获取我们想要的内容 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 html = u""" 文章的标题

h1文字