用于 SEO 的正则表达式:正则表达式的 12 种用途

已发表: 2024-06-07

网站开发人员和内容营销人员知道数据就是黄金。 它可以为您提供用于修改或完善数字策略的深刻见解的基础。

但如何充分利用数据呢?

您可能有一个 Google Search Console 并且知道它的主要查询功能:“等于”和“包含”。 这些可以为您提供聚合数据信息的方法,您可以使用这种方式创建具有战略洞察力的有意义的报告。

如果您可以执行比“等于”和“包含”等内置连接器更强大的搜索,该怎么办? 这就是 RegEx 的承诺,它是一种易于实现和使用的编码工具。

在这里,我们将向您介绍有关 RegEx 的基础知识、它的不同之处以及如何使用它来提升您的 SEO 水平。

什么是正则表达式以及它是什么样的?

长期以来,RegEx 一直是开发人员中公开的秘密。 它为您搜索和构建数据的方式提供了极大的灵活性,使您能够自定义具有深入见解的报告,而仅使用内置的 Google Search Console 工具无法获得这些见解。

RegEx 代表正则表达式。 它是一种充当搜索功能的编码工具。 几乎每个最近使用过文本文档的人都可能使用过“查找和替换”,它实际上是一个正则表达式。

事实上,RegEx 无处不在,包括人们每天使用的工具,如 Microsoft Word、记事本和 Google 搜索引擎。 因此,尽管它是代码,并且无缝集成到许多编程语言中,但它的潜力和功能很容易理解。

它在制定 SEO 策略方面的好处是巨大的,特别是可以帮助您识别搜索模式并访问隐藏在 Google Search Console 中的数据。

在我们继续讨论 SEO 中的 RegEx 之前,让我们花一点时间来定义 RegEx 字符串及其外观。 一个简单的例子是这一系列字符:

  • /t[aeiou]+/g

此正则表达式查找字母“t”后跟元音的所有实例。 假设您将此模式应用于以下句子:

  • 我坐在格雷格的桌子旁吃了一些吐司。

正则表达式将得到以下结果:

  • 坐在格雷格的桌子吃了一些烤面包

这是一个相对简单的 RegEx 应用示例。 它可以有更长、更复杂的字符序列。 某些符号还提供有关 RegEx 如何运行的“说明”,例如方括号标识示例中“t”后面可以跟随的字符范围。 标点符号(包括问号和星号)也是 RegEx 字符串的基础。

在这篇博文中,我们将重点关注 RegEx 过滤器的一个属性,在使用 RegEx 优化 SEO 报告和技术 SEO 审核之前了解该属性非常重要。 这就是正则表达式匹配中“贪婪”和“懒惰”的区别。 在正则表达式中,您可以应用量词代码来帮助您选择“贪婪”正则表达式模式或“惰性”正则表达式模式。

贪婪正则表达式模式

很容易看出,RegEx 搜索字符串的可能匹配项会根据 RegEx 过滤器的具体参数而变化。 在我们的示例中,表达式选取了最长的可能搜索字符串来适合该模式。 “t”后跟任何元音,正则表达式模式导致的结果既包含“ate”中的“te”,也包含“toast”中的“toa”。

由于此正则表达式模式会查找尽可能长的字符串,因此它被称为“贪婪”。 事实上,“toast”的结果不仅仅是“toa”,更准确地说是“to”和“toa”。 您将获得这些类型的结果这一事实很重要,这样您就可以完全理解您的正则表达式模式匹配。

懒惰模式

在惰性模式中,RegEx 查找字符串可能的最短匹配。 在我们的示例中,惰性正则表达式模式将不再将“toast”中的“toa”作为单独的结果; 它将以“to”结尾,因为这是与正则表达式查询匹配的最短字符串。

让我们使用 RegEx 搜索示例来查找字母“y”,后跟任意数量的字符,最后跟“l”。

  • 在贪婪模式中,正则表达式会在包含这些单词的数据集中选取“yell”和“yellow”。
  • 在惰性模式中,正则表达式将仅拾取同一数据集中的“yel”。

使用正则表达式有什么好处?

RegEx 是一个强大的工具,用于生成搜索数据报告。 通过深入研究您的数字活动,您可以利用可用于优化内容、执行关键字研究等的见解。 当您深入研究 Google Analytics 时,RegEx 可以帮助您超越平台的简单介绍功能。

让我们分解一下:Google Analytics 和正则表达式如何协同工作以实现 SEO,以及 Google 正则表达式搜索如何优化您的数据。

RegEx 用于搜索引擎优化的 12 大用途

正则表达式有其明显的用途:例如,识别重复内容,以及查找最有可能与搜索查询匹配的最佳锚文本。 但 RegEx 至少可以通过多种方式帮助您进行 SEO。 以下是正则表达式的一些最佳用途。

1. 分析 URL

使用正则表达式分析 URL 似乎很奇怪,但想想电子商务场景:您可能有数千个单独的 URL,它们都对应于产品页面。 深入研究转化数据并过滤与消费者活动相对应的特定 URL 的能力是非常宝贵的。

您可以使用此数据来识别客户看到并响应的 URL,以及他们没有看到的 URL。 RegEx 允许您使用 URL 中的产品类别或名称等字符串来获取该 URL 组的活动。 您还可以执行一些智能 URL 分析,跟踪用户访问的 URL 列表,以清晰地了解客户旅程。

2. 进行关键词分析

您可以使用 RegEx 更深入地了解人们搜索和用来查找您的网站并与之互动的关键字。 这是一个功能强大的工具,可让您识别利基搜索、高转化字符串和关键短语,您可以通过内容策略利用其推动转化的能力。

RegEx 允许您使用贪婪或惰性模式查找字符串,而使用简单的现有 Google Search Console 工具“包含”或“等于”可能很难将其可视化。 在这里,您可以找到那些效果良好但有时难以发现的长尾关键字,这些关键字有助于推动您的销售。

3. 创建自定义渠道分组和事件

谷歌还喜欢在流量来源和活动方面提供类别。 该平台具有预设的渠道分组,可让您识别哪些流量通过这些渠道来到您的网站。 它还设置您可以在基本分析策略中跟踪的“页面浏览量”等事件。

使用正则表达式,您可以自定义所有这些分析信息。 您可以创建与您的策略相关的渠道组,例如“来自欧洲大陆的应用用户的流量”。 这样做的好处是显而易见的:您可以根据对您了解数字营销策略的成功最重要的任何标准来设置您的组。

4. 识别表现不佳的页面

还记得我们关于拥有数千个 URL 的电子商务网站的说明吗? 这是许多网站开发人员的常见状态:网站页面索引很长,并且需要可定制的分析来查看哪些页面提供了最佳回报。 但它并不止于此,因为某些 URL 可能有错误。 用户的活动模式可能与其他页面不同。 也许访问者不会转换或不会点击进入其他页面。

RegEx 允许您深入了解链接到这些页面中的每一页的活动。 您可以使用此数据开始纠正错误或进行页面级分析。

这对于持续维护很有用。 这也可以是第一步,看看对策略的修改是否有助于优化有效的内容并弥补不足之处。

5. 排除推荐

Google Analytics 4 中的流量报告通常会捕获所有引荐来源,但您实际上可能希望从报告中排除某些流量引荐。 假设您正在运行按点击付费的广告系列。 帮助您跟踪广告系列效果的流量模式可能如下:

  • 广告 URL → 购买确认 URL

在此示例中,广告的 URL 是流量来源。 但更常见的是,分析中出现的模式如下:

  • 广告 URL → 支付网关 → 购买确认 URL

分析不会将广告 URL 识别为购买流量的推荐来源,而是识别支付网关。 从分析的角度来看,这显然并不理想,因为您的客户可以从许多不同的来源到达支付网关。

通过使用引荐排除,您可以从分析中删除潜在的引荐来源,例如本示例中的支付网关。

推荐排除可以通过在 GA4 中使用 RegEx 来实现:

  • 找到“配置标签设置”选项。
  • 选择根据“引荐域与正则表达式匹配”排除引荐的选项。
  • 输入您的正则表达式字符串。

以这种方式使用 RegEx 的优点是您不必列出要在报告中排除的多个域; 您可以简单地识别 RegEx 字符串。

6.根据行为细分用户以创建受众

就像您使用 RegEx 创建自定义渠道一样,您可以深入分析数据以揭示用户行为的图片。 这个过程称为行为细分,允许您将符合特定标准的用户划分为细分受众。

这是一项全面的分析,涵盖客户旅程、这些用户经常使用的渠道以及他们响应的消息。 通过细分受众群体,您可以为每个群体制定有针对性的数字营销策略。

7. 进行索引一致性检查

索引一致性检查通常留给开发人员执行,以确保本地站点索引与相关数据库的索引匹配。 RegEx 在此任务中提供了卓越的易用性和功能性,因为您可以使用贪婪的 RegEx 或惰性的 RegEx 模式来识别两者之间的任何不匹配并相应地进行补救。

8. 通过识别 HTML 元素来评估内容

技术搜索引擎优化的一部分是确保您的网站代码易于搜索引擎抓取。 代码通常应该结构良好、组织良好。 代码过于混乱可能会对 SEO 产生负面影响。 RegEx 可以帮助您识别网站上的“笨重”代码字符串,以便您可以在优化过程中对其进行清理。

开发人员可以通过搜索缺陷来评估内容的“后端”质量。 RegEx 命令可以帮助您识别不良代码风格的元素,例如多余的空行、缺失的空格或可能太长的代码行长度。

这是另一个事件,当您的网站有数百甚至数千个页面时,RegEx 是一个非常宝贵的节省时间的工具。

9. 从“.Htaccess”文件创建智能重定向

“.Htaccess”文件是一种隐藏文件,会导致从一个页面自动重定向到另一页面。 假设您围绕新产品线开发了两部分内容:一份是对您的首席执行官关于开发过程的采访,另一份是产品规格的细分。

也许您想在产品发布一个月后取消对首席执行官的采访。 使用正则表达式,您可以识别引导人们找到该内容的搜索字符串,并提供智能重定向到您真正希望他们看到的内容。

10. 查找客户购买后的询问

数字营销人员可能会认为他们的工作在转化点就结束了。 但购买后数据可以深入了解客户的购买后问题和体验。 最近客户的想法可以告诉您很多关于该产品是否有效以及您如何主动应对这些问题的信息。

假设您销售一台最先进的吸尘器。 您可能想知道人们是否正在寻找有关“保修”、“退货期”、“不起作用”、“更换零件”和“投诉”等关键术语的信息。

正则表达式查询可以帮助您识别客户在购买后可能查找的关键术语,以便您可以准备好回复。 该回复可能是为您的客户服务团队或网站上提供退货和保修信息的相关页面提供的一组问答。

11.比较品牌和非品牌流量

对于数字营销人员来说,一个重要的问题是哪一部分用户通过品牌标识进行搜索,还是通过产品、服务或行业进行搜索。 将“可口可乐”视为品牌,而“软饮料”、“碳酸饮料”、“苏打水”或“甜味​​剂”都是与可口可乐相关的术语示例。 在搜索流量中,“可口可乐”和“苏打水”都是潜在的关键术语,但一个是品牌特定的,另一个不是。

营销人员可以使用正则表达式来区分搜索品牌和品牌相关术语的访问者以及搜索非品牌相关术语的访问者。 在此示例中,“Coca-Cola”、“Coke”和“Diet Coke”都是品牌关键术语。 Google Search Console 中区分流量类型的 RegEx 报告的一个示例是“包含”或“排除”您指定的品牌字词的 RegEx 查询。

根据您使用 RegEx 的方式,您的“包含”报告可能仅包含这些品牌术语,也可能包含所有术语。 如果您使用惰性正则表达式模式,则只能捕获品牌流量; 使用贪婪的正则表达式模式,您可以捕获一切。

12. 进行日志文件分析

假设您想从日志文件中提取关键术语。 RegEx 可以帮助您高效地完成此操作,即使值以不同的顺序出现在每个日志行中或者根本不出现在每个日志行中。 通过使用 RegEx,您可以识别与数据分析相关的日志,并使用它们创建一致的报告。

由于 RegEx 的灵活性,您可以采用惰性模式来消除重复日志中的重复项。 默认情况下,正则表达式模式是贪婪的。 如有必要,请使用特殊字符将搜索限制为惰性模式,例如使用“*?” 代替 ”*”。 一个技巧是从一个简单的正则表达式查询开始,它可以在实现更复杂的正则表达式模式之前提供日志结构的透明度。

常见问题解答