网页的下载
本文章属于爬虫入门到精通系统教程第四讲
在爬虫入门到精通第二讲中,我们了解了HTTP协议,那么我们现在使用这些协议来快速爬虫吧
本文的目标
当你看完本文后,你应该能爬取(几乎)任何的网页
使用chrome抓包
抓包(packet capture)就是将网络传输发送与接收的数据包进行截获、重发、编辑、转存等操作,也用来检查网络安全。抓包也经常被用来进行数据截取等。
第一个案列:抓取轮子哥的动态
1. 打开轮子哥动态这个网页
2. 打开抓包工具
* 点击F12打开开发者工具
* 点击Network(或者网络)
* 按F5刷新下页面(主要是让请求重发一次,这样就能抓到包了)
*