[iOS]iOS解析HTML的坑(NSHTMLTextDocumentType)

html-css012

[iOS]iOS解析HTML的坑(NSHTMLTextDocumentType),第1张

前几天在进行项目的迭代开发时收到QA的一个测试bug,说是在APP使用过程中出现卡顿,经过排查,终于发现了罪魁祸首NSAttributedString NSHTMLTextDocumentType。

当你看到这篇文章时,很可能你也遇到了NSAttributedString的initWithData:options:documentAttributes:error:接口初始化HTML字符串的问题,这个接口的已知问题有:耗时较长,偶现crash,在不同版本系统上的表现不一致等。

经本人亲自测试,initWithData接口最大的问题就是初始化HTML字符串时耗时很大。我用的是iPhone 8Plus手机,处理一段HTML文本时耗时惊人(HTML比较复杂,包含图片),并且在某些iOS系统上,偶现超时的问题,导致UI卡死。

为防止阻塞主线程,可以尝试切换到非主线程执行:

附:查阅相关资料,目前还没有更好的解决方法。如有更好的解决方法,欢迎留言告知。

使用Objective-C解析HTML或者XML,系统自带有两种方式一个是通过libxml,一个是通过NSXMLParser。不过这两种方式都需要自己写很多编码来处理抓取下来的内容,而且不是很直观。

有一个比较好的类库hpple,它是一个轻量级的包装框架,可以很好的解决这个问题 。它是用XPath来定位和解析HTML或者XML。

安装步骤:

-加入 libxml2 到你的项目中

Menu Project->Edit Project Settings

搜索 “Header Search Paths”

添加新的 search path “${SDKROOT}/usr/include/libxml2〃

Enable recursive option

-加入 libxml2 library 到你的项目

Menu Project->Edit Project Settings

搜索 “Other Linker Flags”

添加新的 search flag “-lxml2〃

-将下面hpple的源代码 加入到你的项目中:

HTFpple.h

HTFpple.m

HTFppleElement.h

HTFppleElement.m

XPathQuery.h

XPathQuery.m

不知道您指的是什么样的解析

如果是解析成网页,那么直接用 UIWebView 初始化使用字符串

如果获取其中的标签,一般解析 XML 比较多, Html比较少

如果一定要拿到里面的东西,可以用字符串匹配的方式进行循环校验,判断所在位置,把它截取出来.