2018-02-03

爬虫之异步加载（实战花瓣网）

本文章属于爬虫入门到精通系统教程第八讲本次我们会讲解两个知识点 1. 异步加载 2. headers中的Accept 本次我们要抓取的是花瓣网美女照片美女花瓣，陪你做生活的设计师（发现、采集你喜欢的美女图片）花瓣网（http://huaban.com/favorite/beauty/）本次我们会用到的辅助包 scrapy/parsel （https://github.com/scrapy/parsel）(假如你用过scrapy,那么一定不陌生，这就是其中提取器) Parsel is a library to extract data from HTML and XML usin

继续阅读全文 »

2018-02-03

爬虫

headers的详细讲解

本文章属于爬虫入门到精通系统教程第七讲直接开始案例吧。本次我们实现如何模拟登陆知乎。 1.抓包首先打开知乎登录页知乎 - 与世界分享你的知识、经验和见解注意打开开发者工具后点击“preserve log”，密码记得故意输入错误，然后点击登录我们很简单的就找到了我们需要的请求 1 2 3 _xsrf:81aa4a69cd410c3454ce515187f2d4c9 password:*** email:admin@wuaics.cn 可以看到请求一共有三个参数 email 和password就是我们需要登录的账号及密码那么_xsrf是什么？我们在哪能找到？

继续阅读全文 »

2018-02-03

爬虫

网页的解析之XPATH

本文章属于爬虫入门到精通系统教程第六讲在爬虫入门到精通第五讲中，我们了解了如何用正则表达式去抓取我们想要的内容.这一章我们来学习如何更加简单的来获取我们想要的内容. xpath的解释 XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。 XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。 XPath的基本使用要使用xpath我们需要下载lxml，在爬虫入门到精通-环境的

继续阅读全文 »

2018-02-03

爬虫

网页的解析之正则表达式

在爬虫入门到精通第四讲中，我们了解了如何下载网页，这一节就是如何从下载的网页中获取我们想要的内容 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 html = u""" 文章的标题

h1文字

Input

2018-02-03

爬虫

网页的下载

本文章属于爬虫入门到精通系统教程第四讲在爬虫入门到精通第二讲中，我们了解了HTTP协议，那么我们现在使用这些协议来快速爬虫吧本文的目标当你看完本文后，你应该能爬取（几乎）任何的网页使用chrome抓包抓包（packet capture）就是将网络传输发送与接收的数据包进行截获、重发、编辑、转存等操作，也用来检查网络安全。抓包也经常被用来进行数据截取等。第一个案列：抓取轮子哥的动态 1. 打开轮子哥动态这个网页 2. 打开抓包工具 * 点击F12打开开发者工具 * 点击Network(或者网络) * 按F5刷新下页面（主要是让请求重发一次，这样就能抓到包了） *

继续阅读全文 »