本系列课程和大家分享一个基于java的html解析器,叫做jsoup,它可以方便的把一个URL地址、字符串或者文件的html解析成dom的java对象。Jsoup用来做简单的java爬虫还是挺方便的。
本课程的由来是:自从今年年初辞职创业之后,发现反而比以前更忙了,以前在单位的时候,有时间用肉眼(读app、看网站)收集信息、阅读(财经、体育等)新闻,现在没有太多时间去收集了。于是近期利用jsoup自己做了一个小的每天定时的采集器(有闲置的安卓手机、平时不怎么用),于是有了本课程。
在这里呢,主要是想和大家分享一下jsoup的知识。
主要介绍jsoup的使用方法、侧重点是内容抓取解析这块(修改文档的部分一笔带过了),并且最后做个小的demo:简单的爬取一个网页,将爬取的内容展现在android界面的TextView中(电脑至少:50w~70w、一个旧的安卓手机:耗电量几乎可以不计)。
课程demo爬取的效果截图如下:
通过学习本课程可以掌握以下内容:
- 掌握html解析器Jsoup的使用;
- 能够做一个基于android的爬虫小案例;
- 熟悉Java编程语言语法;
- 最好略懂一些html、css、js知识;
- 熟悉简单的Android开发(至少已经有AndroidStudio的环境);
- 有兴趣了解jsoup的html文档解析(爬虫的一个基础知识点)的朋友;
- 没有什么开发经验的Java / android初学者;