浏览器环境检测

背景 之前爬虫 驱动个selenium基本上就可以了. 但是现在各种检测浏览器环境…特别是不熟悉js的同学就更烦了 本文是直接把 selenium pyppeteer 以及正常打开浏览器 的环境差异直接列出来 这样你就可以更愉快的爬虫了(可以直接把环境全部模拟上,或者大概看看有啥,下次看人家混淆js的时候心里有个数) 原理 就是遍历window对象,把属性全部保存成json文件 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38

继续阅读全文 »

使用tensorflow识别验证码

tensorflow-cnn-captcha-server 背景 大家都知道机器学习对识别验证码很好用 但是对于一个爬虫工程师来说,去学习 机器学习相关知识可能成本太高了.(当然有空的话,还是要好好学的) 本篇 是 以实用为主,让你不需要了解任何机器学习的知识,只需要按照配置把图片放好… 就可以解决 验证码问题. 前提 需要有标记好的验证码图片 没有的话,假如你现在是接的商用的打码服务,可以把验证通过的图片存下来。 或者自己手工标记一批…(懒的话 对接打码服务也是可以的.) 爬虫来训练这个模型,自己识别验证码收益是非常高的。 假设训练1天后,有95%的准确率来,你就接入自己的服

继续阅读全文 »

POW与反爬虫

POW解释 工作量证明(Proof-of-Work,PoW)是一种对应服务与资源滥用、或是阻断服务攻击的经济对策。一般是要求使用者进行一些耗时适当的复杂运算,并且答案能被服务方快速验算,以此耗用的时间、设备与能源做为担保成本,以确保服务与资源是被真正的需求所使用。此一概念最早由Cynthia Dwork和Moni Naor于1993年的学术论文提出,而工作量证明一词则是在1999年由Markus Jakobsson与Ari Juels所发表。现时此一技术成为了加密货币的主流共识机制之一,如比特币所采用的技术 背景 大家应该都听过POW反垃圾邮件的故事 大概意思是:在写信的时候,把收件人+邮

继续阅读全文 »

appium 安卓无法点击搜索框解决办法

最近在弄python控制app做一些自动化的事情 碰到很多地方需要点击搜索按钮,搜了一堆,最终找到了完美的解决办法 之前的 1 2 3 4 5 6 7 8 9 10 def enter(self): # 参考 http://www.lemfix.com/topics/277 # 切换成搜狗输入法 os.system("adb shell ime set com.sohu.inputmethod.sogou/.SogouIME") sleep(5) self.driver.press_keycode(66) # 按回车 sleep(3

继续阅读全文 »