使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的......-白红宇

使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的......

阅读量：7060 次

发布时间：2019-06-28

本文共 535 字，大约阅读时间需要 1 分钟。

日期：2012-7-20 来源：

如果你曾经开发过内容聚合类网站的话，使用程序动态整合来自不同页面或者网站内容的功能肯定对于你来说非常熟悉。通常使用的话，我们都会使用到一些HTML的解析，例如，httpparser，最早的整合搜索就是使用httpparser来抓取Google和Baidu的搜索结果，并且整合呈现给搜索用户，这也就是GBin1域名的由来。

那么今天呢，我们介绍另外一个超棒的Java的HTML解析器 - ，这个类库可以帮助大家实时的处理HTML。提供了非常方便的API来提取和处理数据，最重要的它使用类似的语法来处理，等，如果你使用过的话，就知道它处理DOM的强大方便之处。

主要特性

jsoup实现了的标准，和现代浏览器解析DOM的方式一样。主要功能：

可以从URL，文件或者字符串中抓取和解析HTML

使用DOM的查询和CSS选择器来查找和解压数据

可以处理HTML的属性，元素和文本

帮助用户处理递交的内容，并且防止XSS攻击

输出干净的HTML

基本上可以帮助你处理各种的HTML问题，并且帮助你验证非法的tag，创建一个干净的DOM树。

.....

来源：

转载于:https://my.oschina.net/gbin1/blog/68129

你可能感兴趣的文章