http协议的讲解

什么是HTTP协议? 引用自维基百科 超文本传输协议(英文:HyperText Transfer Protocol,缩写:HTTP)是互联网上应用最为广泛的一种网络协议。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。通过HTTP或者HTTPS协议请求的资源由统一资源标识符(Uniform Resource Identifiers,URI)来标识。 HTTP的发展是由蒂姆·伯纳斯-李于1989年在欧洲核子研究组织(CERN)所发起。由万维网协会(World Wide Web Consortium,W3C)和互联网工程任务组(Internet Engineering Task

继续阅读全文 »

爬虫环境的配置

IDE的安装 IDE我用的是VS code,也用过pycharm(但是电脑配置不行,比较卡) VScode安装教程在这,写的蛮清楚的 然后安装一个python的插件就行 见如下截图 * 点击数字1的地方 * 在数字2的地方输入python * 点击python 0.5.8 右边的安装按钮 包的安装 配置pip源,不配置的话下载速度很慢 windows:在当前用户根目录下,创建.pip和这个文件夹,然后在里面新建一个文件pip.in 里面的内容为 [global] index-url = http://mirrors.aliyun.com/pypi/simple/ [instal

继续阅读全文 »

开始爬虫之旅

引言 我经常会看到有人在知乎上提问如何入门 Python 爬虫?、Python 爬虫进阶?、利用爬虫技术能做到哪些很酷很有趣很有用的事情?等这一些问题,我写这一系列的文章的目的就是把我是如何学习爬虫,爬虫的技巧告诉大家. 什么是爬虫? 引用自维基百科 网络蜘蛛(Web spider)也叫网络爬虫(Web crawler),蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它

继续阅读全文 »