如何开始使用正则表达式

已发表: 2021-07-21

正则表达式是营销领域经常被忽视的技术技能之一。 它可以在 Google Search Console、Google Analytics 和 Google Data Studio 中用于 SEO 的数据提取。

本文完全专注于正则表达式的概念,以及它利用数据分析作为 SEO 服务一部分的优势。

数据科学和数据分析在搜索引擎优化的未来发挥着巨大的作用。 在今天的实践中,我们不能只依赖 On-Page、Off Page 和技术 SEO。

数据 SEO 在获得关键字排名和自然流量的预期结果方面发挥着巨大作用。

正则表达式有助于从数据集中提取特定的字符模式,这对于 SEO 领域的许多参与者来说是一项非常重要的技能:

  • 搜索引擎优化专家
  • 网络运营商和网络分析团队
  • 研究人员/数据工程师
  • 数字营销专家/顾问

什么是正则表达式?

正则表达式,俗称正则表达式,是用于模式匹配的工具之一。 正则表达式是一个字符串或一系列字符,它表示一种模式,以便匹配、管理和过滤文本。

一个 Regex 字符串可能如下所示:
([0-9]+(\.[0-9]*)?)
它使用字符集、符号集和其他元素来描述模式。 模式可能是电话号码、URL、日期或时间、地址、标识符(如产品参考),甚至是代码页中的一句话。

然后,您可以在任何文本或列表中找到与您描述的模式匹配的序列。

[案例研究] 通过日志文件分析提高排名、自然访问量和销售额

2017 年初,TutorFair.com 的团队要求 Omi Sido 的 SEO 服务来帮助他们。 他们的网站在排名和自然访问方面苦苦挣扎。
阅读案例研究

搜索引擎优化中如何使用正则表达式?

在 SEO 实践中,这有助于过滤网站获得流量的关键字或短语。 反过来,此过滤器有助于分析用户的行为和搜索意图。 自从谷歌搜索引擎的 BERT 更新以来,这一点变得越来越重要,它帮助谷歌使用 NLP 更好地识别用户意图。

在此之后,搜索引擎现在专注于了解用户意图并在 SERP 的第一页上对最引人注目的内容进行排名。 Google Analytics 和 Google Search Console 都是 SEO 中广泛使用的免费工具,支持使用 Regex 技术。

基本正则表达式技能:运算符

在继续之前,您必须了解运算符才能有效地使用 Regex。 正则表达式运算符分为五类:

  1. 字符集
  2. 通配符
  3. 锚点
  4. 团体
  5. 转义字符

每个运算符代表一种字符或指令。 以下是一些主要的运营商。

字符类

字符类是字符的集合或类型。

  • \d - 它匹配任何一位数字。
  • \D - 它匹配任何一个不是数字的字符。
  • \w - 它匹配任何一个“单词字符”(字母、数字、下划线)。
  • \s - 它匹配任何空白(空格、制表符,...)。
  • \S - 它匹配任何不是空格的字符。
  • ?-i – 为所有后续字符指定区分大小写的匹配。

通配符

通配符不指定它们匹配的特定字符。

  • 点 (.) – 它匹配任何单个字符(字母、数字或符号)。
  • 问号 (?) – 匹配前一个字符 0 次或 1 次。
  • 加号 (+) – 它有助于匹配前一个字符 1 次或多次。
  • 星号 (*) – 它有助于匹配前一个字符 0 次或更多次。
  • 管道 (|) – 创建 OR 匹配。

锚点

锚点描述了您尝试匹配的模式部分。

  • 脱字符号 (^) – 表示正则表达式应匹配字符串或行开头的字符,而不是字符串中的任何位置。
  • 美元符号 ($) – 表示正则表达式应匹配字符串或行末尾的字符,而不是字符串中的任何位置。

团体

组是在正则表达式中对元素进行分组的方法。

  • 括号 (()) - 它“捕获”括号内的字符,这些字符可能由它们周围的模式来描述,与正则表达式的其余部分相匹配。 您可以使用多个捕获组,它们将按照它们出现的顺序被识别。
  • 方括号 ([]) - 它以任意顺序匹配包含在字符串中的任何位置的字符集。
  • 破折号 (-) – 用于方括号内,表示字符范围,如 0-9 或 AZ。

逃脱

转义字符允许您按字面意思使用字符,即使它通常被解释为运算符。

  • 反斜杠 (\) – 指示相邻字符应按字面解释而不是正则表达式运算符。

现在让我们看几个基本示例,了解如何在 Google Analytics 和 Google Search Console 中使用它。

如何在 Google Analytics 中过滤表格

Google Analytics 是免费工具之一,可借助以下数据帮助分析您网站上的用户旅程:

  • 受众:人口统计信息
  • 获取:用户如何到达您的网站
  • 行为:用户在您的网站上所做的事情
  • 转化:用户是否完成了您在您的网站上为他们设定的销售或营销目标

我们可以使用 Regex 过滤 Google Analytics 中的数据并了解用户行为。

在上图中,正则表达式/ebooks/|/tools/用于在 |(pipe) 的帮助下过滤网站上 1000 个页面中的两个页面,这意味着“或”。 该字符串可以读作:“仅查找包含 /ebooks/ 或 /tools/ 的页面

同样,您可以使用所有其他字符串成为辨别用户行为和他们在您的网站上访问的页面的大师。

如何在 Google Search Console 中过滤查询

谷歌搜索控制台是谷歌分析等重要工具之一。 它提供有关 Google 如何在搜索结果中使用页面的信息,根据技术 SEO 诊断问题,并在获取与用户行为相关的数据方面增加价值。

最近,谷歌搜索控制台在 2021 年 4 月添加了“正则表达式”功能,以将数据过滤提升到高级水平。 您可以过滤以下模式:,

  • 匹配正则表达式
  • 不匹配正则表达式

GSC 提供了许多设施,其中性能报告尤为突出。 在这里,我们可以找到以下信息:

  • 总点击次数
  • 总展示次数
  • 平均点击率
  • 平均位置
  • 查询(关键字最多 1000 个)
  • 正在排名的页面
  • 国家
  • 设备
  • 搜索外观
  • 日期

在报告的最顶部,有过滤选项。 要使用正则表达式,您需要单击“+New”选项。

您使用正则表达式来过滤查询、页面、国家、设备和搜索外观。

这是过滤短语“数字代理”、“数字代理”或在数字和代理之间带有一些其他文本的短语(如“数字通信代理”和“SEO 代理的数字专业知识是什么”)的一个基本示例,使用正则表达式digital.+agency

结果如下:

为什么使用正则表达式?

虽然您必须首先了解字符串和运算符的概念,但对于许多 SEO 从业者来说,Regex 可以成为一个有用的新工具。 正则表达式可以帮助识别搜索意图、内容分析、用户行为等。

搜索引擎优化的未来取决于数据和对需要解决的直接影响的技术问题的理解。

有许多工具使用数据过滤来提供有关任何网站的更多信息。 这可以包括 Ahrefs 和 SEMrush,以及像 Oncrawl 这样的爬虫,还包括像 Google Analytics 和 Google Search Console 这样的工具。

使用 Regex 时,需要了解运算符和字符。 然后,从中获得好处的方法就很清楚了。 使用正则表达式过滤器将帮助我们了解可用于确定搜索意图的数据,并专注于将用户带到您的网站的搜索查询。

是的,搜索引擎优化的目标是获得流量和排名关键字。 但是,当务之急是获得更多的转化和销售。 正则表达式可以帮助您将您的网站变成一台转换机器。