课程目录:
利用Python的机器学习库,对一般网站的验证码进行识别和破解。
课程目录:
1、训练素材获取。
2、训练素材加工。
3、数据准备及机器学习。
4、实战检验及另类工具。
在我们做Web端自动化测试的时候,往往需要登录并输入验证码。本课程通过对指定网站的验证码开展机器学习,以达到自动识别验证码,进而实现自动登录网站的目的。
涉及到的图像处理库比较全面,包括有:
-
CV2:opencv的python版本,应用较广,本课程用于测试数据的准备;
-
PIL:Python自带的图像处理库,但功能较简单,本课程用于图像处理后直方图的描绘;
-
Pillow: 出发点在于PIL只支持python2.7,添加了一些新特性,本课程中用其做图片的切割预处理。
涉及到的机器学习库为比较大众化的sklearn,算法为其常用的聚类算法,也是较为基础的一种k均值(K-means)。
通过机器学习的一般建模过程:获取数据——》数据预处理——》训练模型——》模型评估——》预测,分类进行展开。最终达到识别率约70%的结果。