HTML | SYM01

0x00 前言许久以前接到一个需求，实现一个 HTML 富文本过滤的基础库。这个需求在其它语言实现中有许多久经考验的开源库，比如 NodeJS 有 DOMPurify ，但在 Go 中却异常尴尬，没有一个合适的、久经考验的 HTML 富文本过滤库。即使运气好找到了一个，也很难保证这个库是安全可靠的。思来想去，还是决定自己做一套性能扛得住、安全可靠的 Go 语言实现。其实相关代码在 2020 年的时候就已经完成，但一直没有介绍其实现。好在最近开启的躺平模式，终于可以唠一唠这个东西是怎么实现的了。 0x01 原理咱们的目标是做一套性能扛得住、安全可靠的 Go 语言实现，其核心关键词是性能和安全：处于安全考虑，这里不能轻易地使用第三方的 DOM 解析库（毕竟也不知道靠不靠谱），最为稳妥的办法是做一个 HTML 的最小语义支持，不管输入如何，这个库只支持它认为正常的HTML 语法。要满足性能需求，算法复杂度不宜太高，最好是线性扫描所以最终决定使用 DFA（确定有限状态自动机）从 0 构建一个 HTML 解析器。提到 DFA 有些同学可能会一头雾水，但提到正则表达式大家可能会相对熟悉一点。一个正则表达式，可能是一个 DFA，也有可能是一个 NFA（非确定有限状态自动机）。比如 a*ab 这个正则表达式是一个 NFA a+b 这个正则表达式则是一个 DFA 很明显，上面两个正则表达式是等价的，NFA 是可以和 DFA 互转的。实现具体的 DFA 之前，我们需要先把整个状态机的实现勾勒出来，避免写代码的时候一头雾水。因此，我们按照设想的 “HTML 的最小语义支持”，画了下面这张状态图。 HTML 解析过程的 DFA 源文件实际上 ETAG_END、TAG_END、NORMAL 是同一种状态，但为了实现方便，这里拆成了三种状态 0x02 实现安全标签+安全属性状态机画出来后，还需要总结出所有的安全标签+安全属性。安全标签这个概念比较好理解，类似与 <script> 这种可以造成 XSS 的标签，肯定不属于安全标签。类似的，onerror 这类属性，肯定也不属于安全属性。最终我们梳理出了这么一份安全标签+安全属性列表。 ...