[Webinar Digest] SEO na Orbicie: Rankbrain, sztuczna inteligencja, uczenie maszynowe i przyszłość wyszukiwania

Opublikowany: 2019-11-13

Webinarium Rankbrain, sztuczna inteligencja, uczenie maszynowe i przyszłość wyszukiwania jest częścią serii SEO w Orbit i zostało wyemitowane 19 czerwca 2019 r. W tym odcinku Bill Slawski wykorzystuje swoją wiedzę na temat patentów Google i mechanizmów wyszukiwania, odrzucić prawdopodobne algorytmy wyszukiwania używane dzisiaj i postulować, jak mogłoby to wyglądać pod maską przyszłej wersji Google. Dołącz do nas, gdy będziemy badać przyszłość technicznego SEO.

SEO w Orbicie to pierwsza seria webinariów, która wysyła SEO w kosmos. W całej serii omawialiśmy teraźniejszość i przyszłość technicznego SEO z najlepszymi specjalistami SEO, a 27 czerwca 2019 r. wysłaliśmy ich najlepsze wskazówki w kosmos.

Obejrzyj powtórkę tutaj:

Przedstawiamy Billa Sławskiego

Bill Slawski, samouk w patentach wyszukiwarek, jest dyrektorem zasięgu SEO w Go Fish Digital i blogerem w SEO by the Sea. Własnymi słowami Billa: „Nie jestem informatykiem ani matematykiem. Posiadam licencjat z języka angielskiego oraz tytuł prawnika. Czytam patenty z wyszukiwarek od około 2005 roku, aby dowiedzieć się, co mają do powiedzenia na temat wyszukiwania, wyszukiwarek i sieci. Wiele z tych patentów obejmuje algorytmy, które mają na celu rozwiązanie określonych problemów, i uważam, że wiele z nich jest pomocnych, jeśli chodzi o pozycjonowanie”.

Gospodarzem tego odcinka był Francois Goube, seryjny przedsiębiorca oraz współzałożyciel i dyrektor generalny OnCrawl. Założył kilka firm i aktywnie uczestniczy w ekosystemie startupowym. Pasjonat analizy semantycznej i wyszukiwarek, uwielbia analizować naukowe publikacje Google i jest stałym prelegentem na konferencjach SEO.

Czym jest sztuczna inteligencja i uczenie maszynowe?

Istnieje wiele definicji sztucznej inteligencji.

Wiele pracy Google koncentruje się na sieciach neuronowych, co prowadzi do tego, jak działa uczenie maszynowe. Używa zestawu danych reprezentujących idealny zestaw danych, oznaczonych w celu podkreślenia pewnych jego cech, który jest używany do trenowania klasyfikatorów. Są one następnie udostępniane innym zestawom danych w celu przeanalizowania i sklasyfikowania nowych informacji w oparciu o to, czego nauczyli się z zestawu próbek. To jest uczenie maszynowe.

Obszary objęte AI

– Język naturalny

Sztuczna inteligencja może obejmować różne obszary, takie jak lepsze rozumienie języka naturalnego. W grę wchodzi wiele technik, a wiele rzeczy pochodzących od Google ilustruje, co jest związane z analizą języka naturalnego.

– Odpowiadanie na pytania

Niedawny patent (link) próbuje wypełnić puste pola w schematach odpowiedzi na pytania.

Wyjaśnia, w jaki sposób Google może wykorzystać wykres wiedzy, aby zrozumieć, jaka może być odpowiedź na pytanie. Na przykład, jeśli brakuje informacji lub są nieprawidłowe dane dotyczące podmiotów, Google może spróbować oszacować odpowiedź na podstawie informacji związanych z powiązanymi faktami.

Co ciekawe w tym patencie, to nie to, że Google używa szacunków do odpowiadania na pytania, ale to, że podaje wyjaśnienia dla swoich szacunków.

– Naśladowanie ludzkiej myśli (sieci neuronowe)

Uczenie maszynowe opiera się na sztucznej inteligencji, naśladując sposób, w jaki może działać ludzka myśl. Sieci uczenia maszynowego nazywane są sieciami neuronowymi, ponieważ zostały zbudowane w celu odtworzenia sposobu, w jaki działają neurony w mózgu.

Rankbrain

– Związek z kolibrem i kontekstem słów

Zarówno Rankbrain, jak i Hummingbird to metody przepisywania zapytań. Koliber próbował lepiej zrozumieć kontekst zapytania, przeglądając wszystkie słowa w zapytaniu. Wcześniej Google patrzył tylko na słowa obok siebie, aby zrozumieć kontekst; Koliber wygląda poza słowami bezpośrednio obok siebie. Może nawet uwzględniać pełne zdania w zapytaniach konwersacyjnych. Koliber próbował użyć wszystkich słów w zapytaniu, aby zrozumieć kontekst.

– Przepisywanie zapytań w Rankbrain przy użyciu metody osadzania słów

W przeciwieństwie do Hummingbird, Rankbrain stosuje metodę osadzania słów. Bada krótki fragment tekstu i jest w stanie określić, czy brakuje słów. Czyni to, trenując na dużych zbiorach danych (200 miliardów słów).

– Znajdowanie brakujących słów w zapytaniu

Na przykład zapytanie „łamigłówka New York Times” może być poprawnie zinterpretowane jako brak słowa „krzyżówka”. Rankbrain dodaje brakujące słowo do zapytania i zwraca wyszukiwarce wyniki dla krzyżówki New York Times, ponieważ prawdopodobnie tego chcą.

– Czy można zoptymalizować pod Rankbrain?

Należy pamiętać, że nie można zoptymalizować stron pod kątem Rankbrain. Niektórzy SEO napisali artykuły mówiące, że możesz. Jednak wszystko, co Bill widział na temat algorytmu, sugeruje, że jest to proces przepisywania zapytań, a nie coś, co wpływa na ocenę strony.

Dodatkowe algorytmy Google wykorzystujące uczenie maszynowe

Google nie ma ani jednego „algorytmu”, który napędza wyszukiwarkę. Ma wiele różnych algorytmów, które przyczyniają się do tego, jak to działa. Rankbrain jest jednym z wielu.

– Korzystanie z wyników jakości w ramach kategorii

Może to na przykład oznaczać, że gdy Google stwierdzi, że dla danego zapytania istnieje wiele wyników typu informacyjnego, zamiast rankingu stron na podstawie wyniku wyszukiwania informacji lub ocen autorytetu, takich jak PageRank, może wziąć pod uwagę kategorie. Stamtąd mogą podawać Wyniki Jakości w kategoriach witryn. Zapewni to bardziej zróżnicowany zestaw wyników i zapewni, że wyniki wyższej jakości będą mogły szybciej znaleźć się na szczycie wyników.

– Popularność strony dla wyników nawigacyjnych

Ten typ algorytmu rankingowego faworyzuje również strony, które są bardziej popularne (strony, do których ludzie zwykle przechodzą), szczególnie w przypadku wyników typu nawigacyjnego. Gdy osoby wyszukujące już wiedzą, że strona jest tym, co chcą zobaczyć, strona będzie miała tendencję do zajmowania wysokich pozycji w paradygmatach Wyniku Jakości w kategorii.

– Wpływ SERP CTR

Wyniki Jakości Kategorii sugerują również, że strony, które są często wybierane w wynikach wyszukiwania, są również stronami wysokiej jakości i również mają wysoką pozycję w tym podejściu do jakości kategorii.

Jednak chociaż podejście do oceny jakości kategorii jest zdecydowanie uczeniem maszynowym, nie jest to Rankbrain.

Rankbrain dla zaspokojenia sytuacyjnych potrzeb poszukiwaczy

Rankbrain próbuje zrozumieć, czego może brakować w zapytaniu. Najważniejszym aspektem Rankbrain jest to, że stara się sprostać sytuacyjnym potrzebom wyszukiwarek: co ta osoba naprawdę miała na myśli, wpisując zapytanie w polu?

Wcześniejsze zapytania słów kluczowych a bieżące zapytania ustne i konwersacyjne

Jeśli idziemy w kierunku zapytań mówionych i konwersacyjnych, będzie to więcej słów niż w przypadku podejścia opartego na słowach kluczowych, które było używane w przeszłości.

Jako osoba wyszukująca próbujesz odgadnąć, jakich słów potrzebujesz, aby znaleźć potrzebne informacje. I nie powinieneś tego zgadywać. Jeśli pytasz o to, czego chcesz, Google powinno być w stanie to przeanalizować i określić, co prawdopodobnie miałeś na myśli. To jest rola Rankbraina.

Metody przetwarzania języka naturalnego

Jedną z rzeczy, które obserwujemy, jest to, że Google zwraca dużo większą uwagę na przetwarzanie języka naturalnego. Widzimy podejście do przetwarzania języka naturalnego.

– Dopasowanie neuronowe

Danny Sullivan napisał na Twitterze coś o czymś, co nazwał dopasowaniem neuronowym.

Powiedział, że jest to sposób na lepsze zrozumienie słów na stronach i znaczenia tych słów w kontekście. Podał kilka przykładów tego, jak jedno słowo może oznaczać trzy lub cztery różne rzeczy, w zależności od tego, jak jest umieszczone w zdaniu.

– Osadzanie słów

Google wypuszcza patenty na stosowanie metody osadzania słów (takiej, jaką stosowano w Rankbrain w celu zrozumienia tych krótkich zapytań tekstowych) w przypadku dłuższych ilości tekstu, takich jak strony internetowe.

– Ramki semantyczne

Rama semantyczna ma miejsce wtedy, gdy używasz języka idealnego w określonej sytuacji. W każdej sytuacji używany jest określony język. Na przykład punkty w kontekście zakupu hipoteki lub nieruchomości nie mają tego samego znaczenia, co punkty w kościach lub grach planszowych.

Jeśli rozumiesz strukturę, możesz lepiej zrozumieć kontekst słów na stronie.

Może to również pomóc w rozróżnieniu słów, których znaczenie różni się w zależności od sytuacji. Na przykład „koń” nie oznacza tego samego dla jeźdźca i dla stolarza. Inne patenty również badały dodatkowe metody rozumienia kontekstowych różnic w znaczeniu.

Wykorzystanie uczenia maszynowego do identyfikacji autorów na podstawie stylów pisania

Maszyna dość łatwo rozpoznać styl pisania danej osoby. Istnieje paralela między tym a tematyczną klasyfikacją treści ze względu na ustandaryzowane style w branżach takich jak nieruchomości, sport itp.

Jako student angielskiego, Bill analizował literaturę i przyglądał się różnym sposobom wyrażania się autorów i dlaczego.

– Autor ocenia patent przy użyciu częstotliwości cytowania

Google ma patent na wyniki autorów. Jednym z czynników branych pod uwagę przy ocenie autorów jest to, jak często są cytowani przez innych autorów.

– Przeglądarka Google Books N-Gram

Google wykonuje dużo pracy z modelami językowymi. Zeskanowali dużą liczbę książek. Przeglądarka N-Gram pozwala zobaczyć, jak popularność danej frazy zmienia się na przestrzeni lat.

– Patent Quality Score autorstwa N. Pandy z wykorzystaniem modeli językowych

Patent na Wynik Jakości autorstwa N. Pandy mówi o używaniu N-gramów i budowaniu modeli językowych w celu zrozumienia jakości stron internetowych na podstawie ich porównania z innymi modelami językowymi.

To świetny przykład uczenia maszynowego w technologii wyszukiwarek. Mamy zestaw danych z wcześniej ocenionymi stronami i porównujemy nowe strony z tymi, które są oparte na danych z oryginalnego zestawu próbek. Ponieważ jest to używane do określenia jakości, strony zawierające cechy dobrze napisanych stron z oryginalnego zestawu otrzymają wyższy wynik.

Ten typ modelu językowego można również wykorzystać do zrozumienia stylu pisania różnych autorów.

Przyszłe uczenie maszynowe z ustrukturyzowanymi danymi

Uczenie maszynowe jest również widoczne w sposobie zarządzania podmiotami przez Google, w tłumaczeniu oraz w wyglądzie tego, co Cindy Krum nazwała Fraggles.

– Odpowiadaj na fragmenty i wzmacniaj treść tekstową

Istnieje inny patent, który mówi o fragmentach odpowiedzi, w którym Google proponuje mechanizm wykorzystywania fragmentów tekstowych znalezionych na stronach internetowych do udzielania odpowiedzi na pytania. Zostało to ostatnio zaktualizowane, aby przyjrzeć się nie tylko fragmentom tekstu, ale także ustrukturyzowanym danym, które wzmacniają tekst.

– Sprawdzanie faktów i spójność

Korzystanie ze schematu zapewnia nadmiarowość informacji. Daje to Google możliwość sprawdzenia spójności faktów informacyjnych na stronie internetowej poprzez porównanie informacji tekstowych z informacjami podanymi w znacznikach strukturalnych.

To samo dzieje się na mapach Google, gdzie Google sprawdza imię i nazwisko, adres i numer telefonu.

Spójność zapewnia pewien poziom pewności, że odpowiedź może być bardziej poprawna.

– Strony z najczęściej zadawanymi pytaniami i strony z instrukcjami

Ponieważ Google wprowadza stronę z najczęściej zadawanymi pytaniami i obsługę schematów z instrukcjami, widzimy, że zmierzają one w kierunku sposobów nakłonienia właścicieli witryn do zbudowania schematu, który odzwierciedla to, co mogą umieścić w tekście na stronie internetowej.

Strategie zrozumienia kontekstu na stronie internetowej

Firma Google podjęła inne kroki w celu lepszego zrozumienia treści na stronach internetowych. Tu jest kilka:

– Korzystanie z baz wiedzy i terminów kontekstowych

Patenty Google wskazują, że mogą przeglądać bazy wiedzy i zbierać definicje terminów kontekstowych z tych baz wiedzy. Mogą następnie poszukać obecności tych terminów kontekstowych na stronie internetowej, aby pomóc określić, które zależne od kontekstu znaczenie słowa jest najbardziej prawdopodobne.

Tak więc strona o koniu (zwierzęciu) może zawierać słowa takie jak „siodło”, podczas gdy strony o innych typach koni mogą zawierać słowa takie jak „stolarstwo”.

– Indeksowanie na podstawie fraz

Inne podejście do semantycznego uczenia się w celu zrozumienia tematów na stronach pochodzi z mniej więcej 2004 roku. Indeksowanie fraz jest nie tylko stare, ale także przedmiotem co najmniej 20 patentów i było kilkakrotnie aktualizowane i poprawiane. Wszystko to wskazuje Billowi, że indeksowanie oparte na frazach ma duże znaczenie w algorytmach Google.

– Budowanie odwróconego indeksu tematycznych fraz predykcyjnych

Jeden z patentów związanych z indeksowaniem opartym na frazach opisuje tworzenie odwróconego indeksu fraz, które pojawiają się na stronach i które przewidują tematy. Przykładem mogą być frazy takie jak „Prezydent Stanów Zjednoczonych”, „Sekretarz Stanu” lub „Wywiad w ogrodzie różanym”, które przewidują semantyczny temat „Białego Domu”.

Wiedza przedmiotowa webmastera w Schema

Google rozwija wykorzystanie takich rzeczy jak Schema, ale definicję rodzaju rzeczy, które opisuje Schema, dostarczają webmasterzy. W ten sposób webmasterzy mogą przyczynić się do budowania wykresów wiedzy wraz z wyszukiwarkami.

Na przykład Google dodał „wiedzy o” jako aspekt schematu. Jednak to webmasterzy wskazują, że prawnicy mogą wiedzieć o prawie admiralicji lub prawie patentowym, co z kolei pomaga wypełnić wykres wiedzy.

Reprezentacja wiedzy oparta na maszynach to wspólny wysiłek.

[Studium przypadku] Zarządzanie indeksowaniem botów Google

Mając ponad 26 000 referencji produktów, 1001Pneus potrzebował niezawodnego narzędzia do monitorowania wydajności SEO i upewnienia się, że Google przeznacza swój budżet na indeksowanie odpowiednich kategorii i stron. Dowiedz się, jak skutecznie zarządzać budżetem indeksowania witryn e-commerce za pomocą OnCrawl.
Przeczytaj studium przypadku

Ewoluujące wyszukiwanie i przestarzałe praktyki SEO

– Powtarzające się słowa w tekście alternatywnym

Poinformowanie Google, że zdjęcie osoby musi zostać nazwane dwukrotnie, nie pomaga Google również dwukrotnie go zrozumieć. Możliwe nawet, że może to obniżyć ocenę wartości strony przez wyszukiwarkę.

– LSI przeznaczone dla małych statycznych baz danych

Twórcy narzędzi ciągle sugerują, że SEO używają starych technik. Jednym z przykładów jest ukryte indeksowanie semantyczne (LSI), które zostało opracowane w 1989 roku. Było przeznaczone dla małych, statycznych baz danych, które nie mają rozmiaru sieci i nie rosną w takim tempie, jak sieć.

Za każdym razem, gdy chcesz skorzystać z LSI, musisz mieć najnowszą wersję bazy danych. Jeśli będziesz dalej dodawać informacje do korpusu, trzeba je uruchomić ponownie. Oznacza to, że nie jest to zbyt przydatne w sieci.

– TF-IDF działa tylko z dostępem do pełnego korpusu

Innym przykładem jest TF-IDF (termin częstotliwość dokumentu indeks częstotliwości). Działa to najlepiej, jeśli masz dostęp do pełnego korpusu indeksowanych informacji, w tym przypadku do sieci WWW. Używasz TF-IDF, gdy chcesz wiedzieć, które słowa są najczęstsze, a które rzadkie w całym korpusie. Ale jeśli używasz tylko korpusu strony w pierwszej dziesiątce rankingu dla określonych terminów, a nie całej sieci, nie możesz ustalić rzeczywistej częstotliwości terminów.

Może to poważnie wpłynąć na dokładność Twojej analizy.

Oczekiwania webmastera i możliwości Google: potrzeba komunikacji od Google

Pomimo ostatnich zapowiedzi nie wiemy, czy znaczniki stronicowania nie są przydatne dla wyszukiwarek.

Chociaż znaczniki stronicowania nie są już używane do zarządzania powielonymi treściami na stronach podzielonych na strony, mamy pewne oczekiwania wobec Google. Powinni być w stanie zrozumieć, kiedy strony są w serii. Ogłoszenia takie jak ten ujawniają trudności w poznaniu, jak dobry lub jak kiepski jest Google w tym, co robi.

Używanie często współwystępujących słów

Ulubioną sztuczką techniczną Billa jest przyglądanie się często współwystępującym słowom, które mają wysoką rangę dla określonych terminów i upewnianie się, że używa ich w treści, zarówno w treści, jak iw tekście zakotwiczenia wskazującym z jego strony na powiązane strony. Wykorzystuje to „zakotwiczone trafienia”, które są rzekomo traktowane przez wyszukiwarki jako „odnośniki eksperckie”.

Ta strategia jest oparta na indeksowaniu opartym na frazach.

– Statystyczne prawdopodobieństwo współwystępowania frazy

Patent na indeksowanie oparte na frazach został zaktualizowany około dwa lata temu. Podejście to wykorzystuje teraz liczbę powiązanych terminów pojawiających się na stronach, aby uszeregować strony.

Jeśli jednak na stronie pojawi się więcej niż statystycznie prawdopodobna liczba powiązanych terminów, może ona zostać oznaczona jako spam. Na przykład, jeśli zdrapałeś wiele stron na dany temat i umieściłeś je wszystkie na jednej stronie, miałbyś zbyt wiele powiązanych terminów, aby stało się to naturalnie.

To dobrze pasuje do sposobu, w jaki Bill prowadzi badania słów kluczowych. Przegląda podobne strony i tworzy listę podobnych fraz lub słów, które często się pojawiają. Może próbować użyć niektórych z nich na swojej własnej stronie, nawet jeśli nie stara się ich uszeregować. Tworzy to treść adekwatną do słów kluczowych, dla których chce się uszeregować.

LSI a używanie synonimów lub treści powiązanych semantycznie

Szum wokół LSI jest jednym z najmniej ulubionych tematów Billa, po części dlatego, że termin ten wprowadza w błąd. To, co wiele osób sugeruje, gdy mowa o LSI, nie ma nic wspólnego z ukrytym indeksowaniem semantycznym. Zamiast tego proponują po prostu dodanie do stron synonimów lub treści pokrewnych semantycznie.

Odwrócony indeks indeksowania opartego na frazach i bazy wiedzy, które mogą dostarczać terminy kontekstowe, wskazują, że istnieją terminy i źródła, do których można się udać, aby znaleźć słowa, które mogą być przydatne, jeśli ściśle szukasz terminów współwystępujących na wysokich pozycjach strony dla Twojego słowa kluczowego.

Słowa, które wydają się być synonimami, czasami nie są, według szacunków Google.

Szybkie indeksowanie za pomocą narzędzia do przesyłania adresów URL

Narzędzie do przesyłania adresów URL w nowej wersji Google Search Console to naprawdę szybki sposób na indeksowanie stron. Bill widział aktualizacje rozpowszechniane w SERP w ciągu minuty lub dwóch.

Nadzieja Billa na przyszłe znaczniki: więcej informacji o patentach

Pytanie odbiorców: Jakie znaczniki schematu chciałbyś, aby zostały dodane w przyszłości?

Ponieważ dużo pisze o patentach, Bill chciałby zobaczyć lepszy sposób na uchwycenie unikalnych cech patentów. Niektóre z tych funkcji obejmują:

  • Klasy (co ma dotyczyć patent)
  • Nazwa patentu, choć „główna jednostka strony” może obejmować tę funkcję

Ponieważ Google już umożliwia wyszukiwanie w oparciu o funkcje schematu, ostatecznością byłoby ulepszenie wyszukiwania patentów, tak aby ludzie mogli prosić o obejrzenie patentów obejmujących określone kategorie.

Czy optymalizacja mechanizmu odpowiedzi to przyszłość wyszukiwania?

Pytanie publiczności: Czy myślisz, że SEO stanie się w przyszłości AEO?

Bill uważa, że ​​w pewnym sensie SEO zawsze było AEO.

– Starsze wskazania Google jako silnika odpowiedzi

Niekoniecznie przechodzimy ewolucję. Już 15 lat wskazuje na to, że Google zmierzał w tym kierunku, na przykład:

  • 2004: Funkcja słownika umożliwiająca użytkownikom wyszukiwanie znaczenia słów
  • 2005: Wpis na blogu „Tylko fakty” przedstawiający pierwszy fragment lub bezpośrednią odpowiedź, która nie została usatysfakcjonowana podaniem dziesięciu niebieskich linków, ale wolała podać odpowiedź tekstową.

– Sergey Brin: patent na algorytm do rozumienia faktów i relacji między faktami

Inną wskazówką, że Google jako silnik odpowiedzi nie jest niczym nowym, jest patent Sergeya Brina na algorytm do rozumienia faktów i relacji między faktami. Patent ten obejmował pięć książek, ich tytuły, ich wydawców, ich autorów i tak dalej.

Teoria jest taka, że ​​bot przeszukiwałby sieć w poszukiwaniu tych książek i…

[Przerwanie przez OK Google]

– Znaki wodne audio

Istnieje również koncepcja dźwiękowych znaków wodnych, które wykorzystują ultrawysoką częstotliwość. Wypadłyby poza zasięg ludzkiego słuchu, ale psy i komputery byłyby w stanie je zidentyfikować. Może to umożliwić różnym dostawcom śledzenie faktu, że słyszałeś reklamę ze znakiem wodnym i potencjalnie możesz być zainteresowany produktem.

Trwa to od co najmniej pięciu lat i nie jest to coś, o czym dyskutowano w SEO.

Najlepsza wskazówka

„W Internecie jest wiele nieprawdziwych informacji na temat takich tematów, jak RankBrain, dopasowanie neuronowe i uczenie maszynowe. Niektóre z nich zawierają dokładnie zbadane fakty pomieszane z dezinformacją, więc uważaj na to, na czym polegasz”.

Pozycjonowanie w Orbicie powędrowało w kosmos

Jeśli przegapiłeś naszą podróż w kosmos 27 czerwca, złap ją tutaj i odkryj wszystkie wskazówki, które wysłaliśmy w kosmos.