解决微博爬虫碰到的不可见字符

总结摘要
html的文本中夹杂着&#8203但是页面看不到,使用正则替换掉

因为要把微博上个别的内容捣腾出来,复制的时候发现粘贴过来的内容总是有 ??? 结尾,查看源码发现是 ​ 这个鬼东西再做怪,百度搜到说这个是零宽字符,一开始在控制台使用正则去除前后空格,发现并没有什么用,再查了一下,说是需要用 /u200b ,测试了一下果然不错。

不可见字符”/u200b”为 Unicode Character ‘ZERO WIDTH SPACE’ (U+200B),可用于内容标识,不占位数。

附上控制台处理微博内容中的 ​ 代码:

1
2
3
4
var c = document.getElementsByClassName("WB_text W_f14");
for (var index = 0; index < c.length; index++) {
    c[index].innerHTML = c[index].innerHTML.replace(/\u200B/g, "")
}