电脑技术学习

开源Html Parser HtmlCleaner 发布

dn001
通常互联网上的HTML页面都是不规则的, 非结构化的页面.

通常如果我们需要访问或者抽取里面的内容的话, 我们需要分析HTML页面, 去除垃圾.

而最近新发布的 HtmlCleaner 就是这样一个工具. 能够帮助我们将HTML 文档 转化为结构化的XML文档.

虽然目前已经有了类似这样的工具, 但是HtmlCleaner 能够完成几乎所有的HTML转换, 而且不到30k, 这是他们值得称道的地方.


官方站点:
http://htmlcleaner.sourceforge.net/

标签: