移除 Google、Bing 搜索中的低质量结果,隐藏垃圾内容!(附屏蔽 CSDN 的方法)

移除 Google、Bing 搜索中的低质量结果,隐藏垃圾内容!(附屏蔽 CSDN 的方法)

2024-11-15我已开始维护自己的 uBlacklist 规则,访问 Hentioe/uBlacklist-subscription 仓库订阅我的规则! 前言

近年来 Google 中文搜索的质量越来越差了,低质量内容实在太多。对于很多结果,我个人光是看到图标或域名就知道是垃圾,已经习惯性的自动略过。不过近期,我还是决定使用工具屏蔽它们,提高我在检索资料时的专注力。

本文将介绍我的屏蔽标准,以及方法供大家参考。这是一篇新手向教程。过程十分简单!

屏蔽标准

虽然我有明确提到「低质量」、「垃圾」等词汇,但每个人对内容质量的评判肯定是不一样的。我仅以我个人的角度,列出一些推荐屏蔽的内容以作参考:

类型

举例

质量

必要

使用热门关键词伪造结果

跳转后进入站内搜索

极低

AI 生成的内容

豆包对话分享

极低

抄袭

复制/镜像/同步搬运原创者内容

营销号

标题党、洗稿等低质或错误内容

海量的低质内容/页面推荐

CSDN

电商平台产品

淘宝、阿里巴巴、京东

屏蔽标准表格

后文会先介绍工具,然后分别解释以上标准和对应的屏蔽规则。本文的重点是告诉大家如何编写规则,举例时涉及到的实际规则不一定适用于每一个人。

搜索指令

在使用工具屏蔽之前,我们可以尝试使用 Google 等搜索引擎的屏蔽指令来过滤掉一些内容。这些指令可以在搜索框中直接输入,例如:

关键字 -csdn

用上面的模板搜索,会过滤掉所有包含 CSDN 的结果。假设你只想屏蔽极个别网站且不嫌麻烦(或临时性的),可以这样做。但如果你要屏蔽多个网站,想要更精确的屏蔽,那么使用类似广告屏蔽原理的工具才能做到。下文将介绍一个流行的工具,它能直接用在浏览器上。

uBlacklist

uBlacklist 是一款开源的 Chrome 扩展,可以按照匹配规则屏蔽 Google/Bing 等搜索引擎的特定结果。它的用法非常简单,一般情况下只是添加规则就够用了。如果你不想手动添加,还可以订阅他人的规则。

使用

安装此扩展后,单击扩展图标并从“选项”进入设置页面。「常规」下方的输入框就是填写规则的位置了。确保你弄清楚了 uBlacklist 的用法后,我们就可以开始添加规则了。

订阅

规则还可以分享出来,以类似广告屏蔽规则那样被其它用户订阅。如果你要订阅规则,往下滚动找到「添加订阅」按钮,点击它并输入订阅地址即可。它会按照自己的同步机制,定期更新订阅规则。

这里推荐一些可供订阅的规则:

Hentioe/uBlacklist-subscription(由我维护的订阅列表)

eallion/uBlacklist-subscription-compilation(他人整合的大型订阅列表)

添加我维护的订阅(https://hentioe.dev/ublacklist.txt):

添加规则

屏蔽 CSDN

首先毫无疑问,第一个要屏蔽的就是 CSDN。在 uBlacklist 扩展的评论里,绝大多数的中文评论都是为屏蔽 CSDN 而来:

屏蔽 CSDN 已成共识

所以,不要犹豫,添加以下规则:

*://*.csdn.net/*

*://*.csdn.com/*

*://*.csdnimg.cn/*

*://*.gitcode.com/*

*://*.gitcode.net/*

*://*.gitcode.host/*

上述域名中的 gitcode 是 CSDN 公司推出的仿 GitHub 平台,它从诞生起就在作恶。它不仅在无授权的情况下克隆大量 GitHub 仓库,还自制作者主页。不过最令人吃惊的还是它连很多不可描述的内容都搬运过去了,将它屏蔽是防患于未然。

规则讲解

我们拆解一条上述规则 *://*.csdn.net/*,规则中的星号表示通配符,代表任意字符(不完全是)。具体来讲如下:

*://:这部分的 * 表示任意协议,包括:http, https, file, ftp, app 等。

*.csdn.net:这部分的 * 表示任意子域名,例如 blog.csdn.net 和 www.csdn.net。

/*:这部分的 * 表示任意路径。因为 * 单独出现在根路径后,可以认为是屏蔽所有路径。

一旦你不想看到某个域名的所有结果,包括各种子域名,那么这种规则就是最简单也是最严厉的。

我们可以继续添加以下同类规则:

*://*.sohu.com/*

*://*.sina.cn/*

*://*.163.com/*

*://*.douyin.com/*

*://*.toutiao.com/*

*://*.taobao.com/*

*://*.1688.com/*

上面包括了搜狐、新浪、网易、抖音、今日头条、淘宝、阿里巴巴等网站。它们之中一部分是营销号内容占比极大,一部分都是商品,至于抖音这种我一般会直接去抖音搜索而不期望它出现在 Google 中。

屏蔽特定子域名

有些域名,我们可能不想将它完整屏蔽。例如 qq.com。虽然腾讯的网页出现在 Google 中,也常常是低劣的营销号内容,但也存在一些腾讯产品的有意义页面:例如搜索“qq 找回密码”会看到一些官方的帮助页面。

那么我们就不能匹配任意子域,而是针对产生垃圾内容的特定子域名编写规则,如 new.qq.com。对应的规则就是 *://new.qq.com/*。按照同样的逻辑,我们再添加一些规则:

*://www.jd.com/*

*://m.jd.com/*

*://i-search.jd.com/*

这里我又针对京东的一些子域名进行了屏蔽,它们是会产生商品页面的站点。

屏蔽特定路径

有时候,我们只想屏蔽特定类型的内容,而不是整个站点。例如腾讯云的开发者社区,文章质量也不高(标题党多),而且页面中的垃圾推荐也不少。我们可以像这样添加规则:*://cloud.tencent.com/developer/article/* 用以屏蔽开发者社区的文章,而不是整个腾讯云。

正则表达式规则

正则表达式是一种通用的强大的匹配规则,可以表达尤为复杂的匹配逻辑(或合并多条普通规则)。uBlacklist 支持正则表达式作为规则,使用 / 包裹即可。

例如 CSDN 的一些域名,只是后缀不同,我们可以用正则合并它们:

/csdn\.(com|net)/

/gitcode\.(com|net|host)/

更多正则的用法,你可能需要系统的学习和练习。但我估计一般情况下用到的场景不多。

结束语

这就是屏蔽 Google/Bing 等搜索引擎特定结果的方法,以及我的屏蔽标准。希望这篇文章对你有所帮助。考虑到生成式 AI 的发展,以及媒体营销号越来越多,我个人认为屏蔽扩展已是必备的工具。

相关阅读