爬虫之异步加载(实战花瓣网)

本文章属于爬虫入门到精通系统教程第八讲 本次我们会讲解两个知识点 1. 异步加载 2. headers中的Accept 本次我们要抓取的是花瓣网美女照片美女花瓣,陪你做生活的设计师(发现、采集你喜欢的美女图片)花瓣网(http://huaban.com/favorite/beauty/) 本次我们会用到的辅助包 scrapy/parsel (https://github.com/scrapy/parsel)(假如你用过scrapy,那么一定不陌生,这就是其中提取器) Parsel is a library to extract data from HTML and XML usin

继续阅读全文 »

headers的详细讲解

本文章属于爬虫入门到精通系统教程第七讲 直接开始案例吧。 本次我们实现如何模拟登陆知乎。 1.抓包 首先打开知乎登录页 知乎 - 与世界分享你的知识、经验和见解 注意打开开发者工具后点击“preserve log”,密码记得故意输入错误,然后点击登录 我们很简单的就找到了 我们需要的请求 1 2 3 _xsrf:81aa4a69cd410c3454ce515187f2d4c9 password:*** email:admin@wuaics.cn 可以看到请求一共有三个参数 email 和password就是我们需要登录的账号及密码 那么_xsrf是什么?我们在哪能找到?

继续阅读全文 »

网页的解析之XPATH

本文章属于爬虫入门到精通系统教程第六讲 在爬虫入门到精通第五讲中,我们了解了如何用正则表达式去抓取我们想要的内容.这一章我们来学习如何更加简单的来获取我们想要的内容. xpath的解释 XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。 XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。 XPath的基本使用 要使用xpath我们需要下载lxml,在爬虫入门到精通-环境的

继续阅读全文 »

网页的解析之正则表达式

在爬虫入门到精通第四讲中,我们了解了如何下载网页,这一节就是如何从下载的网页中获取我们想要的内容 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 html = u""" 文章的标题

h1文字

网页的下载

本文章属于爬虫入门到精通系统教程第四讲 在爬虫入门到精通第二讲中,我们了解了HTTP协议,那么我们现在使用这些协议来快速爬虫吧 本文的目标 当你看完本文后,你应该能爬取(几乎)任何的网页 使用chrome抓包 抓包(packet capture)就是将网络传输发送与接收的数据包进行截获、重发、编辑、转存等操作,也用来检查网络安全。抓包也经常被用来进行数据截取等。 第一个案列:抓取轮子哥的动态 1. 打开轮子哥动态这个网页 2. 打开抓包工具 * 点击F12打开开发者工具 * 点击Network(或者网络) * 按F5刷新下页面(主要是让请求重发一次,这样就能抓到包了) *

继续阅读全文 »