泻药。

你看的应该是我的视频。

对于验证码识别来说,有两张方式,方法一在视频中也做了介绍,使用findder直接抓包获取Cookies,然后通过这个Cookies来进行登录。不过这种方式需要人工参与,自动化程度不高。

方法二就是真正的验证码识别其流程如下:

1.从网页上面下载验证码的图片

2.打码

3.使用post提交验证码,

4.登陆成功。获得Cookies.之后的访问就使用Cookies来登录。

单说第二步:

现在Python有简单的验证码识别的开源代码,你可以直接下载下来,然后使用你的爬虫调用。这种方式比较简单省钱,但是弊端是效率不高。

还有一种方法是在线打码。现在在线打码的网站比较多。一般来说,这些网站都会提供一个调用接口文件给你,可能是一个dll文件,也可能是几个py文件。因此,你下载这个接口文件,然后根据它网站上面的教程集成到你的爬虫中。

使用打码网站,识别率非常的高。他们的原理是:将你的验证码上传到服务器,然后服务器再将验证码派分给一些专职或者兼职的打码工。打码工人肉识别以后再把验证码发送给服务器,服务器再返回给你。弊端是需要花钱。不过相对便宜,一般来说1毛钱一张4位数的验证码。整个流程走通大概3-4秒钟。

你Google搜索:在线验证码识别。 可以找到很多。为了避免广告,我就不放链接了。

你可以自己选择一种方式。

另外,如果你的爬虫是单线程的,那就没有什么问题,但是如果是多线程的,那么在你必须首先暂停所有线程访问微博,只让一个线程访问,然后下载验证码,识别成功并登录成功获得Cookies以后,才能启动线程去爬取,否则的话,当你一个线程正在识别验证码的时候,另一个线程去访问,会导致验证码改变,从而使得你登录不上去。