围绕大数据采集,对采集技术的相关基础、技术原理、Python实现技术、大数据挖掘与应用方法进行了系统介绍。全面完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术,并提供了27个与爬虫相关技术和应用相关的Python程序。基础部分包括Web服务器的应用架构以及HTTP、Robots、HTML、页面编码等相关协议和规范。技术与实现部分介绍了普通网络爬虫技术、动态页面采集方法、主题爬虫技术、Deep Web爬虫、微博信息采集、Web信息提取以及反爬虫技术等,内容涵盖了各种爬虫技术实现方法及Python例子。大数据挖掘与应用,介绍了用于爬虫应用中的典型大数据处理与挖掘技术,介绍了Web大数据采集的常见应用模式。
适合高等院校大数据、计算机、信息以及经管、金融等人文社科相关专业研究生和高年级本科生,也可以作为大数据、计算机、信息以及经管、金融等人文社科领域研究人员和专业技术人员的参考。
课程介绍
课程目录
往期学员作品
用户评论
课程介绍
课程目录
往期学员作品
用户评论
你将获得
- Python爬虫采集挖掘的完整知识体系
- 爬虫健壮性、合规性、高效性技术
- 常见的基础库如re,requests等
- 多个爬虫案例及Python代码实现
教学服务
教辅资料
实战驱动
1v1专属答疑服务
BAT专家面试辅导
讲师介绍
曾剑平
博士
复旦大学计算机学院副教授,从事互联网大数据处理技术、大数据安全、人工智能安全方面的教学科研工作。出版《Python爬虫大数据采集与挖掘》、《互联网大数据处理技术与应用》两本教材。