RegEx dla SEO: 12 zastosowań wyrażeń regularnych
Opublikowany: 2024-06-07Twórcy stron internetowych i marketerzy treści wiedzą, że dane to złoto. Może stanowić podstawę do głębokich spostrzeżeń, które wykorzystasz do modernizacji lub udoskonalenia strategii cyfrowej.
Ale jak najlepiej wykorzystać swoje dane?
Prawdopodobnie masz Google Search Console i znasz jej główne funkcje zapytań: „równa się” i „zawiera”. Mogą one zapewnić sposoby agregowania informacji o danych w sposób umożliwiający tworzenie znaczących raportów zawierających strategiczne spostrzeżenia.
Co by było, gdybyś mógł przeprowadzać skuteczniejsze wyszukiwania niż tylko wbudowane łączniki, takie jak „równa się” i „zawiera”? To obietnica RegEx, narzędzia do kodowania, które jest łatwe do wdrożenia i użytkowania.
Tutaj przedstawimy Ci podstawy RegEx, czym się różni i jak możesz go wykorzystać, aby ulepszyć swoją grę SEO.
Co to jest RegEx i jak wygląda?
RegEx przez długi czas był tajemnicą poliszynela wśród programistów. Zapewnia ogromną elastyczność w wyszukiwaniu i porządkowaniu danych, umożliwiając dostosowywanie raportów za pomocą szczegółowych analiz, które nie są dostępne za pomocą samych wbudowanych narzędzi Google Search Console.
RegEx oznacza wyrażenie regularne. Jest to narzędzie do kodowania, które działa jako funkcja wyszukiwania. „Znajdź i zamień”, z którego prawdopodobnie korzystał ostatnio prawie każdy, kto korzystał z dokumentu tekstowego, jest w rzeczywistości wyrażeniem regularnym.
Rzeczywiście RegEx jest wszędzie, także w narzędziach używanych na co dzień, takich jak Microsoft Word, Notatnik i wyszukiwarka Google. Mimo że jest to kod i płynnie integruje się z wieloma językami programowania, jego potencjał i funkcjonalność są łatwe do zrozumienia.
Korzyści, jakie daje w opracowywaniu strategii SEO, są ogromne, w szczególności pomagając zidentyfikować wzorce wyszukiwania i uzyskać dostęp do danych ukrytych pod powierzchnią w Google Search Console.
Zanim przejdziemy do omówienia RegEx w SEO, poświęćmy chwilę na zdefiniowanie ciągu RegEx i jego wyglądu. Prostym przykładem jest następująca seria znaków:
- /t[aeiou]+/g
To wyrażenie regularne szuka wszystkich wystąpień litery „t”, po której następuje samogłoska. Wyobraźmy sobie, że stosujesz ten wzór do następującego zdania:
- Zjadłem tost, siedząc przy stole Grega.
RegEx odebrałby następujące wyniki:
- Piję tosty , siedząc przy stole Grega.
Jest to stosunkowo prosty przykład zastosowania RegEx. Może mieć dłuższą i bardziej złożoną sekwencję znaków. Niektóre symbole zawierają również „instrukcje” dotyczące działania RegEx, na przykład nawiasy kwadratowe określające zakres znaków, które mogą występować po literze „t” w przykładzie. Znaki interpunkcyjne, w tym znaki zapytania i gwiazdki, są również podstawą ciągów RegEx.
W tym poście na blogu skupimy się tylko na jednym atrybucie filtrów RegEx, o którym warto wiedzieć przed użyciem RegEx w celu optymalizacji raportów SEO i technicznych audytów SEO. Taka jest różnica między „chciwym” a „leniwym” w dopasowaniu wyrażeń regularnych. W RegEx możesz zastosować kod kwantyfikatora, który pomoże Ci wybrać „chciwy” wzór RegEx lub „leniwy” wzór RegEx.
Chciwy wzór RegEx
Łatwo zauważyć, że możliwe dopasowania ciągu wyszukiwania RegEx różnią się w zależności od dokładnych parametrów filtru RegEx. W naszym przykładzie wyrażenie pobrało najdłuższy możliwy ciąg wyszukiwania pasujący do wzorca. Litera „t”, po której następuje dowolna samogłoska, którą wzór wyrażenia regularnego prowadzi do wyniku, który obejmuje zarówno „te” w „zjadł”, jak i „toa” w „toast”.
Ponieważ ten wzorzec RegEx szuka najdłuższego możliwego ciągu, nazywa się go „chciwym”. W rzeczywistości wynikiem „toastu” byłoby nie tylko „toa”, ale dokładniej „do” i „toa”. Warto wiedzieć, że otrzymasz tego rodzaju wyniki, aby w pełni zrozumieć dopasowania wzorca RegEx.
Leniwy wzór
W leniwym wzorcu RegEx szuka najkrótszego możliwego dopasowania do ciągu. W naszym przykładzie leniwy wzorzec RegEx nie będzie już pobierał „toa” w „toaście” jako osobny wynik; kończyłoby się na „to”, ponieważ jest to najkrótszy możliwy ciąg pasujący do zapytania RegEx.
Użyjmy przykładu wyszukiwania RegEx, które szuka litery „y”, po której następuje dowolna liczba znaków, po której następuje litera „l”.
- W zachłannym wzorcu RegEx wyłapałby słowa „yell” i „yellow” w zestawie danych zawierającym te słowa.
- W leniwym wzorze RegEx wychwyciłby tylko „yel” w tym samym zestawie danych.
Jakie są zalety używania wyrażeń regularnych?
RegEx to potężne narzędzie do tworzenia raportów na temat danych wyszukiwania. Analizując dogłębnie swoją aktywność cyfrową, możesz wykorzystać spostrzeżenia, które możesz wykorzystać do optymalizacji treści, przeprowadzenia badania słów kluczowych i nie tylko. Kiedy zaczynasz przygodę z Google Analytics, RegEx może pomóc Ci wyjść poza proste funkcje wprowadzające platformy.
Rozłóżmy to na czynniki pierwsze: jak Google Analytics i wyrażenia regularne współpracują na rzecz SEO i jak wyszukiwanie wyrażeń regularnych Google może zoptymalizować Twoje dane.
12 najważniejszych zastosowań RegEx w optymalizacji wyszukiwarek
RegEx ma swoje oczywiste zastosowania: na przykład identyfikowanie duplikatów treści, a także znajdowanie najlepszego tekstu zakotwiczenia, który najprawdopodobniej będzie pasował do wyszukiwanego hasła. Istnieje jednak co najmniej kilkanaście sposobów, w jakie RegEx może pomóc w SEO. Oto niektóre z najlepszych zastosowań wyrażeń regularnych.
1. Analiza adresów URL
Analizowanie adresów URL za pomocą RegEx może wydawać się dziwne, ale pomyśl o scenariuszu e-commerce: prawdopodobnie masz tysiące pojedynczych adresów URL, które odpowiadają stronom produktów. Możliwość dogłębnego wglądu w dane dotyczące konwersji i filtrowania konkretnych adresów URL odpowiadających aktywności konsumentów jest nieoceniona.
Możesz użyć tych danych, aby zidentyfikować adresy URL, które klienci widzą i na które odpowiadają, oraz te, których nie widzą. RegEx umożliwia użycie ciągów, takich jak kategoria produktu lub nazwa, w adresach URL w celu wykrycia aktywności dla tej grupy adresów URL. Możesz także przeprowadzić inteligentną analizę adresów URL, śledząc listę adresów URL odwiedzanych przez użytkownika, aby uzyskać jasny obraz podróży klienta.
2. Przeprowadzenie analizy słów kluczowych
Możesz użyć RegEx, aby głębiej poznać słowa kluczowe wyszukiwane przez użytkowników i używane do znajdowania Twojej witryny i interakcji z nią. To potężne narzędzie, które pozwala zidentyfikować wyszukiwania niszowe, ciągi znaków generujące dużą liczbę konwersji i frazy kluczowe, których zdolność do generowania konwersji możesz wykorzystać w swojej strategii dotyczącej treści.
RegEx umożliwia wyszukiwanie ciągów znaków przy użyciu zachłannego lub leniwego wzorca, który może być trudny do wizualizacji przy użyciu prostych, istniejących narzędzi Google Search Console, takich jak „zawiera” lub „równa się”. Tutaj znajdziesz najskuteczniejsze, ale czasami trudne do wykrycia słowa kluczowe z długim ogonem, które mogą pomóc w zwiększeniu sprzedaży.
3. Tworzenie niestandardowych grup kanałów i wydarzeń
Google lubi także oferować kategorie, jeśli chodzi o źródła ruchu i działania. Platforma ma gotowe grupowania kanałów, które pozwalają określić, jaki ruch przyszedł do Twojej witryny za pośrednictwem tych kanałów. Konfiguruje także zdarzenia takie jak „wyświetlenia strony”, które można śledzić w ramach podstawowej strategii analitycznej.
Dzięki RegEx możesz dostosować wszystkie te informacje analityczne. Możesz utworzyć grupę kanałów odpowiednią dla Twojej strategii, np. „ruch pochodzący od użytkowników aplikacji w Europie kontynentalnej”. Korzyści z tego są oczywiste: możesz ustawić swoje grupy według dowolnych kryteriów, które są dla Ciebie najważniejsze, aby zrozumieć sukces Twojej strategii marketingu cyfrowego.
4. Identyfikacja stron o niskiej wydajności
Pamiętasz naszą notatkę o witrynie e-commerce z tysiącami adresów URL? To częsty stan wielu twórców witryn internetowych: długi indeks stron witryn i potrzeba dostosowywalnych analiz, aby sprawdzić, które z nich zapewniają najlepsze zyski. Ale to nie koniec, ponieważ niektóre adresy URL mogą zawierać błędy. Schemat aktywności użytkowników może być inny niż w przypadku innych stron. Być może odwiedzający nie dokonują konwersji lub nie przechodzą do innych stron.
RegEx umożliwia szczegółowe zapoznanie się z aktywnością powiązaną z każdą z tych stron. Możesz użyć tych danych, aby rozpocząć poprawianie błędów lub przeprowadzić analizę na poziomie strony.
Jest to przydatne w przypadku bieżącej konserwacji. Może to być także pierwszy krok w celu sprawdzenia, czy modyfikacja strategii pomoże zoptymalizować to, co działa dobrze i naprawić to, co szwankuje.
5. Z wyłączeniem poleceń
Raporty ruchu w Google Analytics 4 zazwyczaj obejmują wszystkie źródła odesłań, ale w rzeczywistości możesz chcieć wykluczyć niektóre odesłania ruchu ze swoich raportów. Załóżmy, że prowadzisz kampanię typu pay-per-click. Wzorzec ruchu, który pomaga śledzić skuteczność kampanii, może wyglądać następująco:
- Adres URL reklamy → Adres URL potwierdzenia zakupu
W tym przykładzie źródłem ruchu jest adres URL reklamy. Częściej jednak wzór pojawiający się w analityce jest następujący:
- Adres URL reklamy → Bramka płatności → Adres URL potwierdzenia zakupu
Zamiast identyfikować adres URL reklamy jako źródło odesłań dla ruchu związanego z zakupami, narzędzia analityczne identyfikują bramkę płatniczą. Nie jest to oczywiście idealne rozwiązanie z punktu widzenia analityki, ponieważ Twoi klienci mogą dotrzeć do bramki płatniczej z wielu różnych źródeł.
Korzystając z wykluczeń skierowań, możesz usunąć ze swoich analiz potencjalne źródła poleceń, takie jak bramka płatnicza w tym przykładzie.
Wykluczenie odesłań można osiągnąć, korzystając z RegEx w GA4:
- Znajdź opcję „Konfiguruj ustawienia tagu”.
- Wybierz opcję wykluczania skierowań w oparciu o „Domena odsyłająca pasuje do RegEx”.
- Wprowadź ciąg RegEx.
Zaletą korzystania z RegEx w ten sposób jest to, że nie trzeba wymieniać wielu domen do wykluczenia w raportach; możesz po prostu zidentyfikować ciąg RegEx.
6. Segmentacja użytkowników na podstawie zachowań w celu utworzenia odbiorców
Podobnie jak używasz RegEx do tworzenia kanałów niestandardowych, możesz drążyć dane analityczne, aby odkryć obraz zachowań użytkowników. Proces ten, zwany segmentacją behawioralną, pozwala podzielić użytkowników spełniających określone kryteria na segmentowanych odbiorców.
Jest to kompleksowa analiza obejmująca podróż klienta, kanały, z których korzystają ci użytkownicy oraz komunikaty, na które odpowiadają. Segmentacja odbiorców pozwala opracować indywidualnie ukierunkowane strategie marketingu cyfrowego dla każdej grupy.
7. Przeprowadzanie kontroli spójności indeksu
Sprawdzanie spójności indeksu, zadanie często pozostawione programistom, pozwala upewnić się, że indeks witryny lokalnej jest zgodny z indeksem powiązanej bazy danych. RegEx oferuje wyjątkową łatwość i funkcjonalność tego zadania, ponieważ możesz użyć zachłannych lub leniwych wzorców RegEx, aby zidentyfikować wszelkie niedopasowania między nimi i odpowiednio je naprawić.
8. Ocena treści poprzez identyfikację elementów HTML
Częścią technicznego SEO jest zapewnienie, że kod Twojej witryny będzie łatwy do indeksowania dla wyszukiwarek. Kod powinien być ogólnie dobrze zorganizowany i dobrze zorganizowany. Zbyt zaśmiecony kod może negatywnie wpłynąć na SEO. RegEx może pomóc Ci zidentyfikować ciągi „niezgrabnego” kodu w Twojej witrynie, dzięki czemu będziesz mógł go wyczyścić w procesie optymalizacji.
Programiści mogą ocenić jakość treści „zaplecza”, wyszukując braki. Polecenia RegEx mogą pomóc w zidentyfikowaniu elementów kodu o złym stylu, takich jak nadmiarowe puste linie, brakujące białe znaki lub długości linii kodu, które mogą być zbyt długie.
To kolejny przypadek, w którym RegEx jest nieocenionym narzędziem oszczędzającym czas, gdy masz witrynę internetową zawierającą setki, a może tysiące stron.
9. Tworzenie inteligentnych przekierowań z plików „.Htaccess”.
Plik „.Htaccess” to ukryty plik, który powoduje automatyczne przekierowanie z jednej strony na drugą. Załóżmy, że przygotowałeś dwie treści dotyczące swojej nowej linii produktów: jedna to wywiad z dyrektorem generalnym na temat procesu rozwoju, a druga to zestawienie specyfikacji produktu.
Być może chcesz zapisać rozmowę z dyrektorem generalnym miesiąc po wprowadzeniu na rynek. Korzystając z RegEx, możesz zidentyfikować ciągi wyszukiwania, które doprowadziły ludzi do tej treści, i zaoferować inteligentne przekierowania do treści, które faktycznie chcesz im zobaczyć.
10. Znajdowanie zapytań klientów po dokonaniu zakupu
Marketerzy cyfrowi mogą zakładać, że ich praca kończy się w momencie konwersji. Jednak dane po zakupie mogą zapewnić głęboki wgląd w obawy i doświadczenia klientów po zakupie. To, co myśli niedawny klient, może wiele powiedzieć o tym, czy produkt działa i jak możesz aktywnie reagować na te wątpliwości.
Wyobraźmy sobie, że sprzedajesz najnowocześniejszy odkurzacz. Możesz chcieć wiedzieć, czy ludzie szukają informacji na temat kluczowych terminów, takich jak „gwarancja”, „okres zwrotu”, „nie działa”, „części zamienne” i „reklamacje”.
Zapytanie RegEx może pomóc Ci zidentyfikować kluczowe terminy, których mogą szukać Twoi klienci po zakupie, dzięki czemu możesz przygotować się na odpowiedź. Odpowiedź ta może obejmować zestaw pytań i odpowiedzi dla zespołu obsługi klienta lub odpowiednie strony w Twojej witrynie zawierające informacje dotyczące zwrotów i gwarancji.
11. Porównanie ruchu związanego z marką i ruchu niezwiązanego z marką
Jednym z ważnych pytań dla marketerów cyfrowych jest to, który segment użytkowników wyszukuje według tożsamości marki, a nie produktu, usługi lub branży. Pomyśl o „Coca-Coli” jak o marce, podczas gdy „napoje bezalkoholowe”, „napoje gazowane”, „napoje gazowane” lub „słodzone” to przykłady terminów związanych z Coca-Colą. W ruchu związanym z wynikami wyszukiwania „Coca-Cola” i „soda” są potencjalnymi terminami kluczowymi, ale jedno jest specyficzne dla marki, a drugie nie.
Marketerzy mogą używać RegEx do rozróżnienia między odwiedzającymi szukającymi haseł związanych z marką i marką a odwiedzającymi szukającymi haseł niezwiązanych z marką. W tym przykładzie „Coca-Cola”, „Cola” i „Diet Coke” to terminy kluczowe dla marki. Jednym z przykładów raportu RegEx w Google Search Console, który rozróżnia typy ruchu, jest zapytanie RegEx, które „uwzględnia” lub „wyklucza” określone przez Ciebie terminy związane z marką.
W zależności od tego, jak korzystasz z RegEx, Twój raport „uwzględnia” może zawierać tylko te terminy powiązane z marką lub może zawierać wszystkie terminy. Jeśli użyjesz leniwego wzorca RegEx, możesz przechwytywać tylko ruch związany z marką; dzięki zachłannemu wzorcowi RegEx możesz przechwycić wszystko.
12. Przeprowadzenie analizy pliku dziennika
Załóżmy, że chcesz wyodrębnić kluczowe terminy z plików dziennika. RegEx może Ci w tym pomóc, nawet jeśli wartości pojawiają się w każdym wierszu dziennika w innej kolejności lub w ogóle nie pojawiają się w każdym wierszu dziennika. Korzystając z RegEx, możesz zidentyfikować logi istotne dla Twojej analizy danych i wykorzystać je do stworzenia spójnego raportu.
Ze względu na elastyczność RegEx można zastosować leniwy wzorzec, aby wyeliminować duplikacje w powtarzających się dziennikach. Domyślnie wzorce RegEx są zachłanne. Jeśli to konieczne, użyj znaków specjalnych, aby zawęzić wyszukiwanie do leniwego wzorca, na przykład używając „*?” zamiast "*". Jedna wskazówka to zacząć od prostego zapytania RegEx, które zapewnia przejrzystość struktury logów, przed zaimplementowaniem bardziej złożonego wzorca RegEx.