日期:2012-7-20 来源:
如果你曾经开发过内容聚合类网站的话,使用程序动态整合来自不同页面或者网站内容的功能肯定对于你来说非常熟悉。通常使用的话,我们都会使用到一些HTML的解析,例如,httpparser,最早的整合搜索就是使用httpparser来抓取Google和Baidu的搜索结果,并且整合呈现给搜索用户,这也就是GBin1域名的由来。
那么今天呢,我们介绍另外一个超棒的Java的HTML解析器 - ,这个类库可以帮助大家实时的处理HTML。提供了非常方便的API来提取和处理数据,最重要的它使用类似的语法来处理,等,如果你使用过的话,就知道它处理DOM的强大方便之处。
主要特性
jsoup实现了的标准,和现代浏览器解析DOM的方式一样。主要功能:
- 可以从URL,文件或者字符串中抓取和解析HTML
- 使用DOM的查询和CSS选择器来查找和解压数据
- 可以处理HTML的属性,元素和文本
- 帮助用户处理递交的内容,并且防止XSS攻击
- 输出干净的HTML
基本上可以帮助你处理各种的HTML问题,并且帮助你验证非法的tag,创建一个干净的DOM树。
.....
来源: