RegEx для SEO: 12 способов использования регулярных выражений

Опубликовано: 2024-06-07

Разработчики веб-сайтов и маркетологи контента знают, что данные — золото. Он может стать основой для глубокого понимания, которое вы сможете использовать для обновления или усовершенствования цифровой стратегии.

Но как получить максимальную отдачу от своих данных?

Вероятно, у вас есть консоль поиска Google, и вы знаете ее основные функции запроса: «равно» и «содержит». Они могут дать вам возможность агрегировать данные таким образом, чтобы вы могли создавать содержательные отчеты со стратегической информацией.

Что, если бы вы могли выполнять более эффективный поиск, а не только эти встроенные соединители, такие как «равно» и «содержит»? Это обещание RegEx, инструмента кодирования, который легко реализовать и использовать.

Здесь мы дадим вам основные сведения о RegEx, о том, чем он отличается и как вы можете использовать его для улучшения своей SEO-игры.

Что такое регулярное выражение и как оно выглядит?

RegEx долгое время был секретом полишинеля среди разработчиков. Он предлагает огромную гибкость в поиске и структурировании данных, позволяя настраивать отчеты с углубленной информацией, которая недоступна только с помощью встроенных инструментов Google Search Console.

RegEx означает регулярное выражение. Это инструмент кодирования, выполняющий функцию поиска. «Найти и заменить», который, вероятно, использовали почти все, кто недавно использовал текстовый документ, на самом деле является RegEx.

Действительно, RegEx присутствует повсюду, в том числе в инструментах, которые люди используют каждый день, таких как Microsoft Word, Блокнот и поисковая система Google. Поэтому, хотя это код и легко интегрируется во многие языки программирования, его потенциал и функциональность легко понять.

Его преимущества в разработке вашей стратегии SEO огромны, в частности, он помогает вам выявлять шаблоны поиска и получать доступ к данным, которые скрываются под поверхностью консоли поиска Google.

Прежде чем мы перейдем к обсуждению RegEx в SEO, давайте потратим минуту на определение строки RegEx и ее внешнего вида. Простым примером является эта серия символов:

/t[aeiou]+/g

Этот RegEx ищет все экземпляры буквы «t», за которой следует гласная. Предположим, вы примените этот шаблон к следующему предложению:

Я съел тост, сидя за столом Грега.

RegEx выдаст следующие результаты:

Я съел тост , сидя за столом Грега.

Это относительно простой пример применения RegEx. Он может иметь более длинную и сложную последовательность символов. Некоторые символы также предоставляют «инструкции» о том, как функционирует RegEx, например квадратные скобки, определяющие диапазон символов, которые могут следовать за буквой «t» в примере. Знаки препинания, включая вопросительные знаки и звездочки, также имеют основополагающее значение для строк RegEx.

В этом сообщении блога мы сосредоточимся только на одном атрибуте фильтров RegEx, который важно знать, прежде чем использовать RegEx для оптимизации отчетов по SEO и технического аудита SEO. В этом разница между «жадным» и «ленивым» в сопоставлении с регулярным выражением. В RegEx вы можете применить код квантификатора, который поможет вам выбрать «жадный» шаблон RegEx или «ленивый» шаблон RegEx.

Жадный шаблон регулярного выражения

Нетрудно заметить, что возможные совпадения для строки поиска RegEx различаются в зависимости от точных параметров фильтра RegEx. В нашем примере выражение подобрало самую длинную строку поиска, соответствующую шаблону. Если за буквой «t» следует любая гласная, шаблон регулярного выражения приводит к результату, который включает в себя как «te» в слове «ate», так и «toa» в слове «toast».

Поскольку этот шаблон RegEx ищет максимально длинную строку, он называется «жадным». На самом деле результатом «тоста» будет не просто «тоа», а точнее «то» и «тоа». Важно знать тот факт, что вы получите такие результаты, чтобы вы могли полностью понять совпадения с шаблоном RegEx.

Ленивый узор

В ленивом шаблоне RegEx ищет кратчайшие возможные совпадения со строкой. В нашем примере ленивый шаблон RegEx больше не будет воспринимать «toa» в «toast» как отдельный результат; он остановится на «to», поскольку это самая короткая строка, соответствующая запросу RegEx.

Давайте воспользуемся примером поиска RegEx, который ищет букву «y», за которой следует любое количество символов, а затем буква «l».

По жадному алгоритму RegEx будет выбирать слова «yell» и «yellow» из набора данных, включающего эти слова.
В ленивом режиме RegEx будет распознавать только «yel» в одном и том же наборе данных.

Каковы преимущества использования регулярного выражения?

RegEx — мощный инструмент для создания отчетов по данным вашего поиска. Глубоко изучив свою цифровую деятельность, вы сможете получить ценную информацию, которую сможете использовать для оптимизации контента, исследования ключевых слов и многого другого. Когда вы погружаетесь в Google Analytics, RegEx может помочь вам выйти за рамки простых вводных функций платформы.

Давайте разберемся: как Google Analytics и регулярные выражения работают вместе для SEO и как поиск по регулярным выражениям Google может оптимизировать ваши данные.

12 лучших вариантов использования RegEx для поисковой оптимизации

RegEx имеет очевидное применение: например, выявление дублированного контента, а также поиск лучшего текста привязки, который с наибольшей вероятностью будет соответствовать поисковому запросу. Но есть как минимум дюжина способов, которыми RegEx может помочь вам в SEO. Вот некоторые из лучших вариантов использования регулярных выражений.

1. Анализ URL-адресов

Может показаться странным анализ URL-адресов с помощью RegEx, но подумайте о сценарии электронной коммерции: вероятно, у вас есть тысячи отдельных URL-адресов, которые соответствуют страницам продуктов. Возможность глубоко погрузиться в данные о конверсиях и отфильтровать конкретные URL-адреса, соответствующие активности потребителей, неоценима.

Вы можете использовать эти данные, чтобы определить URL-адреса, которые клиенты видят и на которые отвечают, а также те, которые нет. RegEx позволяет вам использовать такие строки, как категория продукта или имя, внутри URL-адресов, чтобы отслеживать активность для этой группы URL-адресов. Вы также можете выполнить интеллектуальный анализ URL-адресов, отслеживая список URL-адресов, которые посещает пользователь, чтобы получить четкое представление о пути клиента.

2. Проведение анализа ключевых слов

Вы можете использовать RegEx, чтобы глубже изучить ключевые слова, которые люди ищут и используют для поиска вашего сайта и взаимодействия с ним. Это мощный инструмент, который позволяет вам определять нишевые поисковые запросы, строки с высокой конверсией и ключевые фразы, способность которых увеличивать конверсию вы можете использовать в своей контент-стратегии.

RegEx позволяет искать строки, используя жадный или ленивый шаблон, который может быть сложно визуализировать с помощью простых существующих инструментов консоли поиска Google «содержит» или «равно». Здесь вы можете найти высокоэффективные, но иногда трудно распознаваемые ключевые слова с длинным хвостом, которые могут помочь увеличить ваши продажи.

3. Создание пользовательских групп каналов и событий

Google также любит предлагать категории, когда дело касается источников трафика и действий. Платформа имеет предустановленные группы каналов, которые позволяют вам определить, какой трафик пришел на ваш сайт через эти каналы. Он также настраивает такие события, как «просмотры страниц», которые вы можете отслеживать с помощью базовой стратегии аналитики.

С помощью RegEx вы можете настроить всю эту аналитическую информацию. Вы можете создать группу каналов, соответствующую вашей стратегии, например «Трафик, полученный от пользователей приложений в континентальной Европе». Преимущества этого очевидны: вы можете настроить свои группы по любым критериям, которые наиболее важны для вас, чтобы понять успех вашей стратегии цифрового маркетинга.

4. Выявление неэффективных страниц

Помните нашу заметку о сайте электронной коммерции с тысячами URL-адресов? Это обычное состояние для многих разработчиков веб-сайтов: длинный индекс страниц веб-сайта и необходимость настраиваемой аналитики, чтобы увидеть, какие из них обеспечивают максимальную отдачу. Но на этом все не заканчивается, поскольку некоторые URL-адреса могут содержать ошибки. Характер активности пользователей может отличаться от поведения на других страницах. Возможно, посетители не конвертируются или не переходят на другие страницы.

RegEx позволяет вам глубже погрузиться в действия, связанные с каждой из этих страниц. Вы можете использовать эти данные, чтобы начать исправлять ошибки или провести анализ на уровне страницы.

Это полезно для текущего обслуживания. Это также может быть первым шагом, чтобы увидеть, поможет ли изменение вашей стратегии оптимизировать то, что работает хорошо, и исправить то, что не соответствует действительности.

5. Исключение рефералов

Отчеты о трафике в Google Analytics 4 обычно охватывают все источники переходов, но на самом деле вы можете захотеть исключить некоторые переходы по трафику из своих отчетов. Допустим, вы проводите кампанию с оплатой за клик. Схема трафика, которая поможет вам отслеживать эффективность кампании, может быть следующей:

URL объявления → URL подтверждения покупки

В этом примере URL-адрес объявления является источником трафика. Но чаще всего в аналитике возникает следующая картина:

URL объявления → Платежный шлюз → URL подтверждения покупки

Вместо определения URL-адреса объявления в качестве источника переходов для трафика покупок аналитика определяет платежный шлюз. Очевидно, что это не идеально с точки зрения аналитики, поскольку ваши клиенты могут прийти на платежный шлюз из разных источников.

Используя исключения рефералов, вы можете удалить из своей аналитики потенциальные источники рефералов, такие как платежный шлюз в этом примере.

Исключение рефералов возможно с помощью RegEx в GA4:

Найдите опцию «Настроить параметры тега».
Выберите вариант исключения рефералов на основе «домен реферала соответствует RegEx».
Введите строку RegEx.

Преимущество использования RegEx таким образом заключается в том, что вам не нужно перечислять несколько доменов, которые нужно исключить из отчетов; вы можете просто идентифицировать строку RegEx.

6. Сегментация пользователей по поведению для создания аудитории

Подобно тому, как вы используете RegEx для создания пользовательских каналов, вы можете углубиться в свои аналитические данные, чтобы выявить картину поведения пользователей. Этот процесс, называемый поведенческой сегментацией, позволяет разделить пользователей, соответствующих определенным критериям, на сегментированную аудиторию.

Это комплексный анализ, охватывающий путь клиента, каналы, которые часто посещают эти пользователи, и сообщения, на которые они отвечают. Сегментирование аудитории позволяет разрабатывать индивидуально таргетированные стратегии цифрового маркетинга для каждой группы.

7. Проведение проверок согласованности индекса

Задача, которую часто оставляют разработчикам: проверка согласованности индекса гарантирует, что индекс локального сайта соответствует индексу связанной базы данных. RegEx обеспечивает превосходную простоту и функциональность при выполнении этой задачи, поскольку вы можете использовать жадные шаблоны RegEx или ленивые шаблоны RegEx, чтобы выявить любые несоответствия между ними и соответствующим образом исправить их.

8. Оценка контента путем идентификации элементов HTML

Частью технического SEO является обеспечение того, чтобы код вашего сайта легко сканировался поисковыми системами. Код, как правило, должен быть хорошо структурирован и хорошо организован. Слишком перегруженный код может негативно повлиять на SEO. RegEx может помочь вам выявить строки «неуклюжего» кода на вашем веб-сайте, чтобы вы могли очистить его в процессе оптимизации.

Разработчики могут оценить «конечное» качество контента путем поиска недостатков. Команды RegEx могут помочь вам выявить элементы плохого стиля кода, такие как лишние пустые строки, недостающие пробелы или слишком длинные строки кода.

Это еще один случай, когда RegEx является бесценным инструментом экономии времени, когда у вас есть веб-сайт с сотнями или, возможно, тысячами страниц.

9. Создание умных перенаправлений из файлов «.Htaccess»

Файл «.Htaccess» — это скрытый файл, который вызывает автоматическое перенаправление с одной страницы на другую. Допустим, вы разработали две части контента для своей новой линейки продуктов: одна — это интервью с вашим генеральным директором о процессе разработки, а другая — описание спецификаций продукта.

Возможно, вы захотите удалить интервью с генеральным директором через месяц после запуска. Используя RegEx, вы можете определить строки поиска, которые привели людей к этому фрагменту контента, и предложить умные перенаправления на тот контент, который вы действительно хотите, чтобы они увидели.

10. Поиск запросов клиентов после покупки

Специалисты по цифровому маркетингу могут предположить, что их работа заканчивается в момент конверсии. Но данные после покупки могут дать более глубокое представление о проблемах и впечатлениях клиентов после покупки. То, что на уме у недавнего клиента, может многое рассказать вам о том, работает ли продукт и как вы можете активно реагировать на эти проблемы.

Предположим, вы продаете современный пылесос. Возможно, вам будет интересно узнать, ищут ли люди информацию по таким ключевым терминам, как «гарантия», «период возврата», «не работает», «запасные части» и «жалобы».

Запрос RegEx может помочь вам определить ключевые термины, которые ваши клиенты могут искать после покупки, чтобы вы были готовы дать ответ. Этот ответ может представлять собой набор вопросов и ответов для вашей службы поддержки клиентов или соответствующие страницы вашего веб-сайта, на которых представлена информация о возврате и гарантии.

11. Сравнение брендового и небрендового трафика

Один из важных вопросов для специалистов по цифровому маркетингу заключается в том, какой сегмент пользователей ищет по идентичности бренда, а не по продукту, услуге или отрасли. Думайте о «Coca-Cola» как о бренде, а «безалкогольные напитки», «газированные напитки», «газированные напитки» или «подслащенные» — все это примеры терминов, связанных с Coca-Cola. В поисковом трафике «Кока-Кола» и «газировка» являются потенциальными ключевыми терминами, но один из них связан с брендом, а другой — нет.

Маркетологи могут использовать RegEx, чтобы различать посетителей, которые ищут бренд и термины, связанные с брендом, и посетителей, которые ищут термины, не связанные с брендом. В этом примере «Coca-Cola», «Coke» и «Diet Coke» являются ключевыми терминами бренда. Одним из примеров отчета RegEx в Google Search Console, который различает типы трафика, является запрос RegEx, который «включает» или «исключает» указанные вами фирменные термины.

В зависимости от того, как вы используете RegEx, ваш отчет «Включает» может содержать только эти фирменные термины или все термины. Если вы используете ленивый шаблон RegEx, вы можете захватывать только брендовый трафик; с помощью жадного шаблона RegEx вы можете захватить все.

12. Проведение анализа файла журнала

Предположим, вы хотите извлечь ключевые термины из файлов журналов. RegEx может помочь вам сделать это эффективно, даже если значения появляются в каждой строке журнала в разном порядке или вообще не появляются в каждой строке журнала. Используя RegEx, вы можете идентифицировать журналы, относящиеся к вашему анализу данных, и использовать их для создания связного отчета.

Благодаря гибкости RegEx вы можете использовать ленивый шаблон для устранения дублирования в повторяющихся журналах. По умолчанию шаблоны RegEx являются жадными. При необходимости используйте специальные символы, чтобы ограничить поиск ленивым шаблоном, например, используя «*?» вместо "*". Один совет — начать с простого запроса RegEx, который обеспечивает прозрачность структуры ваших журналов, прежде чем реализовывать более сложный шаблон RegEx.