golang怎么去除html - Golang教程网

Go 语言实战：如何去除 HTML 标签？

在 Web 开发中，我们常常需要去除 HTML 标签以获取纯文本内容，例如对评论、文章等内容的分析处理。对于这个需求，Go 语言提供了多种方法，本文将为你介绍其中几种方法。

方法一：使用字符串替换

Go 语言提供了 strings 包来操作字符串。我们可以使用 strings.ReplaceAll() 方法来将 HTML 标签替换为空白字符，从而得到纯文本内容。具体实现代码如下：

上述代码中，我们先使用 strings.ReplaceAll() 方法将所有左尖括号（“<”）替换为空格 + 左尖括号，将所有右尖括号（“>”）替换为右尖括号 + 空格的形式，即将标签和文本之间添加一个空格的间隔，方便后续使用 strings.Fields() 方法将该字符串拆分为多个子串。接着，我们使用 strings.Fields() 方法将字符串拆分为多个子串，再使用 strings.Join() 将这些子串以空白字符连接起来，最后使用 strings.TrimSpace() 方法去除字符串两端的空白字符，得到最终的纯文本内容。

运行上述代码，输出如下：

上述代码实现简单，但是存在以下几个问题：

如果 HTML 标签中包含属性，例如 Google，我们需要在左右尖括号之间添加空白字符，否则替换后的字符串中链接文本 "Google" 与左右尖括号紧贴在一起，使结果不易阅读。
如果 HTML 标签内容过多，例如包含 JavaScript、CSS 等，替换速度会比较慢。

考虑到这些问题，我们可以使用第二种方法。

方法二：使用 Goquery 库

Goquery 是 Go 语言的一个 HTML 解析和操作库，提供了方便灵活的 API。我们可以使用 Goquery 库解析 HTML，筛选文本节点，从而得到纯文本内容。具体实现代码如下：

上述代码中，我们使用 goquery.NewDocumentFromReader() 方法将 HTML 转换为 goquery.Document 对象。接着，我们使用 doc.Find() 方法选择除 script 和 style 标签外的所有节点，使用 sel.Children().Length() 方法判断当前节点是否为文本节点，若是则将其内容添加至 text 变量。最后使用 strings.TrimSpace() 方法去除字符串两端的空白字符，得到最终的纯文本内容。

运行上述代码，输出如下：

使用 Goquery 库可以应对各种标签格式，代码也更易读易维护。

本文介绍了两种去除 HTML 标签的方法，其中正则表达式也是常用的一种。在实际应用中，我们可以针对具体情况选择最适合的方法。