使用tensorflow识别验证码

tensorflow-cnn-captcha-server 背景 大家都知道机器学习对识别验证码很好用 但是对于一个爬虫工程师来说,去学习 机器学习相关知识可能成本太高了.(当然有空的话,还是要好好学的) 本篇 是 以实用为主,让你不需要了解任何机器学习的知识,只需要按照配置把图片放好… 就可以解决 验证码问题. 前提 需要有标记好的验证码图片 没有的话,假如你现在是接的商用的打码服务,可以把验证通过的图片存下来。 或者自己手工标记一批…(懒的话 对接打码服务也是可以的.) 爬虫来训练这个模型,自己识别验证码收益是非常高的。 假设训练1天后,有95%的准确率来,你就接入自己的服

继续阅读全文 »

POW与反爬虫

POW解释 工作量证明(Proof-of-Work,PoW)是一种对应服务与资源滥用、或是阻断服务攻击的经济对策。一般是要求使用者进行一些耗时适当的复杂运算,并且答案能被服务方快速验算,以此耗用的时间、设备与能源做为担保成本,以确保服务与资源是被真正的需求所使用。此一概念最早由Cynthia Dwork和Moni Naor于1993年的学术论文提出,而工作量证明一词则是在1999年由Markus Jakobsson与Ari Juels所发表。现时此一技术成为了加密货币的主流共识机制之一,如比特币所采用的技术 背景 大家应该都听过POW反垃圾邮件的故事 大概意思是:在写信的时候,把收件人+邮

继续阅读全文 »

appium 安卓无法点击搜索框解决办法

最近在弄python控制app做一些自动化的事情 碰到很多地方需要点击搜索按钮,搜了一堆,最终找到了完美的解决办法 之前的 1 2 3 4 5 6 7 8 9 10 def enter(self): # 参考 http://www.lemfix.com/topics/277 # 切换成搜狗输入法 os.system("adb shell ime set com.sohu.inputmethod.sogou/.SogouIME") sleep(5) self.driver.press_keycode(66) # 按回车 sleep(3

继续阅读全文 »

知乎直播弹幕抓取与解析

背景 因为想拿到一些知乎弹幕的数据 以及做一个直播播报机器人,所以最近在研究知乎直播的弹幕 分析 抓取比较简单,不多说了…都是正常的操作 但是 拿到的数据却很奇怪 为了演示方便,我们以 rest接口示范,本质上和websocket接口是一样的。 我们以直播间11529为例子 拿取弹幕的接口是: https://www.zhihu.com/api/v4/drama/theaters/11529/recent-messages 可以看到弹幕数据应该在messages里面,但是数据好像经过了某种加密 js 大搜查 首先全局搜索 recent-messages,找到需要的js文件(这边也

继续阅读全文 »