Raport statystyk indeksowania Google a analiza pliku dziennika: który jest zwycięzcą?
Opublikowany: 2020-12-2224 listopada firma Google opublikowała nową wersję raportu Statystyki indeksowania w Search Console. Ta aktualizacja udostępnia dane, których możesz użyć do debugowania problemów z indeksowaniem i sprawdzania stanu witryny.
Poprzednia wersja wskazuje tylko liczbę stron indeksowanych dziennie, kilobajty pobierane dziennie, czas spędzony na pobieraniu stron dziennie.
W nowej wersji dostępne są te same informacje ze zaktualizowanym wyglądem i działaniem zgodnym z resztą Search Console:
Ale to nie koniec. Google dostarcza znacznie więcej informacji o tym, jak indeksują Twoją witrynę. A przy tak dużej ilości informacji dostępnych bezpośrednio od Google, nasuwa się pytanie: czy nadal potrzebujemy plików dziennika?
Zacznijmy od spojrzenia na sam nowy raport.
Wszystko, co musisz wiedzieć o raporcie statystyk indeksowania Google Search Console
Gdzie można znaleźć nowy raport statystyk indeksowania?
Nowy raport statystyk indeksowania jest automatycznie dostępny dla każdego, kto ma konto Google Search Console.
Zaloguj się do Search Console i przejdź do „Ustawienia” na lewym pasku bocznym. Następnie kliknij „Statystyki indeksowania”.
Co zawiera nowy raport statystyk indeksowania?
Aby pomóc Ci odnaleźć się w obszernych nowych informacjach, polecamy solucję Tomka Rudzkiego na Twitterze:
Nowe statystyki indeksowania GSC są niesamowite!
Pierwszy zrzut ekranu jest podobny do poprzedniej wersji raportu, ale w innych raportach są ukryte perełki
1/n pic.twitter.com/oCNzMhnGsQ— Tomek Rudzki (@TomekRudzki) 24 listopada 2020
Tomek przedstawia nowe dane i przypadki użycia SEO dla każdego:
- Hosty z największą liczbą trafień Googlebotów: znajdź subdomeny, które są najczęściej indeksowane przez Google.
- Kody stanu zwracane do Googlebota: dowiedz się, jaki procent budżetu indeksowania jest wykorzystywany przez odpowiedzi inne niż 200 (tj. przekierowania, brakujące strony i błędy).
- Typ pliku: dowiedz się, jak często Googlebot żąda plików zasobów, takich jak pliki CSS, pliki JavaScript i obrazy.
- Cel wizyty Googlebota: dowiedz się, czy Google odkrywa nowe treści, czy też odświeża treści, o których już wie.
- Podział na żądania wysyłane przez Googlebota na smartfony i żądania Googlebota na komputery: potwierdź, czy Twoja witryna jest gotowa na pełne przejście na indeksowanie zoptymalizowane pod kątem urządzeń mobilnych w marcu 2021 r.
- Próbka zindeksowanych adresów URL: zapoznaj się z niektórymi ostatnio zindeksowanymi adresami URL w Twojej witrynie.
- Stan hosta: nowy wskaźnik, który pokazuje, czy Twój serwer miał ostatnio problemy. Na przykład uwzględnia to dostępność pliku robots.txt i rozdzielczość DNS.
Nasze trzy ulubione rzeczy w raporcie statystyk indeksowania
Raport statystyk indeksowania oferuje zbyt wiele korzyści, aby je wszystkie wymienić, zwłaszcza jeśli nie masz dostępu do plików dzienników. Ale oto nasze trzy najlepsze:
1. Ten raport jest przeznaczony dla wszystkich.
Zapewnia łatwe do odczytania, wysokiego poziomu statystyki indeksowania Googlebota. Jest jasne, kiedy wszystko idzie dobrze, a kiedy są problemy, które mogą wymagać rozwiązania. W niektórych przypadkach idzie nawet dalej: na przykład zawiera wskazówki, takie jak zielone/żółte/czerwone wskaźniki stanu dla stanu hosta.
Nawet jeśli nie masz doświadczenia w śledzeniu botów i indeksowania budżetu, nie powinieneś się zgubić, patrząc na te raporty.
2. Dokumentacja jest świetna.
Dokumentacja nie tylko odpowiada na 99% Twoich pytań, ale zawiera również sprawdzone metody i wskazówki dotyczące kondycji serwera, sygnałów ostrzegawczych, zarządzania częstotliwością indeksowania i podstawowych sporów dotyczących Googlebotów.
3. Dane „dlaczego” stojące za żądaniami Googlebota
Możemy śledzić Googlebota, ale wiele wniosków, dlaczego Google odwiedza daną stronę, trzeba wyciągnąć na podstawie ograniczonych danych. Sekcja Indeksowanie według celu i żądania renderowania widoczne w sekcji „Ładowanie zasobów strony” zapewniają jednoznaczną odpowiedź na niektóre z naszych pytań. Teraz wiemy na pewno, czy Google odkrywa stronę, aktualizuje stronę, czy też pobiera zasób w oddzielnym, drugim przebiegu w celu renderowania strony.
[Studium przypadku] Zarządzanie indeksowaniem botów Google
Jaka jest różnica między informacjami dostępnymi w plikach dziennika a raportem statystyk indeksowania?
Statystyki indeksowania są ograniczone do Googlebotów
Statystyki indeksowania: 0
Dzienniki: 1
Pliki dziennika Twojego serwera rejestrują każde żądanie jakichkolwiek plików i zasobów składających się na Twoją witrynę, bez względu na to, od kogo pochodzą. Oznacza to, że dzienniki mogą zawierać więcej informacji niż tylko Googlebot.
Jednak raport Google Crawl Stats (oczywiście!) ogranicza się do własnej aktywności Google w Twojej witrynie.
Oto niektóre informacje, które można uzyskać z plików dziennika, które nie pojawiają się w statystykach indeksowania:
- Informacje o innych wyszukiwarkach, takich jak Bing. Możesz zobaczyć, jak indeksują Twoją witrynę, ale także zobaczyć, jak ich zachowanie różni się od zachowania Googlebota lub jest z nim zgodne:
Logflare jest tak przydatne. Interesujące jest zobaczyć inne zachowanie indeksowania Googlebotów w porównaniu z Bingbotami w dziennikach na żywo. Googlebot widzi 301, a następny zwrócony adres URL to przekierowany na adres URL, ale Bingbot tego nie robi. Po prostu widzi 301, a potem idzie gdzie indziej
— Dawn Anderson (@dawnieando) 22 stycznia 2020 r.
- Informacje o tym, jakie narzędzia (i konkurenci) próbują zindeksować Twoją witrynę. Ponieważ dostępne informacje nie ograniczają się do Googlebota, możesz też sprawdzić, czy inne boty są aktywne w Twojej witrynie.
- Informacje o odsyłających stronach. Pomoże Ci to znaleźć więcej informacji o najbardziej aktywnych linkach zwrotnych. W protokole HTTPS ostatnia odwiedzona strona lub „strona odsyłająca” jest również rejestrowana z każdym żądaniem.
- Informacje o ruchu organicznym… i nie tylko o ruchu z Google! Korzystając ze stron odsyłających, możesz zidentyfikować ruch ze stron wyników wyszukiwania i lepiej zobaczyć, jak ci użytkownicy wchodzą w interakcję z Twoją witryną. Tego rodzaju informacje mogą służyć do potwierdzania lub poprawiania liczb dostarczanych przez rozwiązanie Analytics, jeśli z niego korzystasz.
- Identyfikacja stron osieroconych. Ponieważ Twoje dzienniki zawierają wszystkie adresy URL żądane przez odwiedzających, wszelkie „aktywne” strony z ruchem botów lub ludzi, do których nie ma linków w strukturze Twojej witryny, pojawią się w Twoich dziennikach. Porównując listę adresów URL w plikach dziennika z listą adresów URL w strukturze witryny z indeksowania, łatwo będzie wykryć strony osierocone.
Kompletny i aktualny?
Statystyki indeksowania: 0
Dzienniki: 2
Czy Twoje dane są kompletne i aktualne? Twoje dzienniki są. A twoje statystyki indeksowania mogą być.
Wiele osób szybko zauważyło 20-40% różnic między raportem Google Search Console a ich plikami dziennika: raport Crawl Stats nie informuje o aktualnej aktywności Googlebota. To znany problem w statystykach indeksowania — ale nie w twoich dziennikach!
Ponadto, podobnie jak w przypadku wszystkich informacji w Search Console, może wystąpić opóźnienie między ostatnią dostępną datą danych a datą dzisiejszą. Jak dotąd w raporcie Statystyki indeksowania zaobserwowaliśmy różnicę do ośmiu dni.
Z drugiej strony możesz używać plików dziennika do monitorowania w czasie rzeczywistym: nigdy nie ma opóźnień!
Zagregowane a pełne listy zindeksowanych adresów URL
Statystyki indeksowania: 0
Dzienniki: 3
Statystyki indeksowania dostarczają zbiorcze dane dla wszystkich Twoich adresów URL. Raport jest odpowiednikiem pulpitu nawigacyjnego. Gdy przejdziesz do wyszukiwania listy adresów URL za daną metryką, zobaczysz listę „przykładów”. Na przykład możesz mieć kilkaset przykładów żądań 4,56 tys. dla plików graficznych:
Jednak w plikach dziennika masz pełną listę adresów URL stojących za każdym wskaźnikiem. Możesz zobaczyć WSZYSTKIE żądania w swoich dziennikach, a nie tylko próbkę.
Filtrowanie według regionów, dat, adresów URL…
Statystyki indeksowania: 0
Dzienniki: 4
Aby być naprawdę użytecznym, statystyki indeksowania mogą skorzystać z szerszych filtrów, które mają zastosowanie do wszystkich żądań, a nie tylko próbek:
Byłoby wspaniale mieć większą elastyczność w:
- Zmień zakres dat, na który patrzymy
- Skoncentruj się na danym regionie geograficznym przez wyszukiwanie IP
- Lepsze filtrowanie według grup adresów URL
- Zastosuj opcje filtrowania do wykresów
Możesz to wszystko — i wiele więcej — zrobić w plikach dziennika.
Informacje dotyczące Googlebota
Statystyki indeksowania: 1
Dzienniki: 4
Jak widzieliśmy, Google korzysta z Raportu statystyk indeksowania, aby dostarczać informacje o celu ich indeksowania:
- Odświeżanie a odkrywanie
- Zasoby strony (pobieranie dodatkowe)
Tych informacji nie można znaleźć nigdzie indziej, bez względu na to, jak sprytnie patrzysz na dane w swoich plikach dziennika.
Łatwy dostęp
Statystyki indeksowania: 2
Dzienniki: 4
Dostęp do raportu Statystyki indeksowania jest prosty: Statystyki indeksowania są automatycznie dostępne dla każdego, kto ma dostęp do Search Console.
Technicznie rzecz biorąc, pliki dziennika powinny być również dostępne dla każdego webmastera. Ale często tak nie jest. Często zespoły programistów, zespoły IT lub firmy klienckie nie rozumieją, jak ważne jest zapewnianie dostępu do plików dziennika. W obszarach takich jak UE, gdzie przepisy dotyczące prywatności ograniczają dostęp do „danych osobowych”, takich jak adresy IP, dostęp do plików dziennika może stanowić problem prawny. Możesz użyć niektórych narzędzi, takich jak OnCrawl, które nie przechowują poufnych informacji.
Gdy masz dostęp do plików dziennika, dostępne są bezpłatne narzędzia do analizy danych i istnieje kilka zastrzeżonych formatów. Innymi słowy, pliki dziennika są dość demokratycznym źródłem danych… kiedy już je zdobędziesz.
To fakt: wielu SEO ma problemy z uzyskaniem dostępu do logów. Tak więc, choć teoretycznie pliki dziennika zapewniają łatwy dostęp do danych, punkt w tym przypadku trafia do raportu Crawl Stats Report, który jest dostępny za pomocą dwóch kliknięć z bezpłatnego narzędzia Google.
Analizator logów Oncrawl
Niedostępne (jeszcze) do integracji z innymi narzędziami i analizami
Statystyki indeksowania: 2
Dzienniki: 5
Google Search Console umożliwia eksportowanie i pobieranie informacji dostępnych za pośrednictwem interfejsu internetowego Raportu statystyk indeksowania. Oznacza to jednak, że pobrane informacje mają te same ograniczenia, co wersje ekranowe.
Ponadto statystyki indeksowania nie są (jeszcze?) dostępne za pośrednictwem interfejsu API, więc połączenie tych informacji w zautomatyzowane procesy raportowania i analizy, a nawet tworzenie kopii zapasowych w celu uzyskania szerszego widoku danych historycznych może być trudne.
W przypadku plików dziennika przechowywanie, dostęp i ponowne wykorzystanie zależą zazwyczaj od Ciebie. Dzięki temu pliki dziennika są znacznie łatwiejsze w użyciu podczas łączenia z innymi źródłami danych, takimi jak śledzenie pozycji, dane indeksowania lub dane analityczne. Można je również łatwiej zintegrować z przepływami raportowania, tworzenia kokpitów i wizualizacji danych.
Ostateczny zwycięzca: pliki dziennika!
Z pięciu do dwóch punktów w raporcie Statystyki indeksowania, pliki dziennika są tutaj wyraźnym zwycięzcą, jeśli chcesz uzyskać pełny wgląd w interakcje wyszukiwarek z Twoją witryną.
Postawmy sprawę jasno: uaktualniony raport Statystyki indeksowania zawiera wiele nowych informacji: kody stanu, typy plików, subdomeny (w przypadku właściwości domeny), szczegóły stanu hosta i nie tylko. Zapewnia bardziej szczegółowe informacje i przydatne dane, aby zrozumieć, w jaki sposób Twoja witryna jest indeksowana, a teraz możesz śledzić zmiany we wzorcach indeksowania.
Będzie to ogromny krok naprzód dla osób, które nie mogą uzyskać dostępu do plików dzienników swoich lub swoich klientów.
Jednak to nie wszystkie plusy!
Plusy i minusy nowych statystyk indeksowania GSC: https://t.co/bjpG7QjeVt
Plusy:
+Zaktualizowane metryki danych
+Lepszy UX (niski słupek TBH)
+Dane do pobrania z indeksowanych adresów URL!
+Podziały żądań indeksowania
+ Zauważono ważne problemy z hostemCons:
-Brak filtrów dla zakresów dat
-Brak opcji filtrowania do zmiany wykresów— Micah Fisher-Kirshner (@micahfk) 24 listopada 2020 r.
Wadą nowego raportu jest to, że chociaż jest dobrym pulpitem nawigacyjnym do monitorowania Googlebota i doskonałym dodatkiem uzupełniającym analizę plików dziennika, jest on pod wieloma względami ograniczony. Nie zapominaj, że tylko pliki dziennika pokażą wszystkie żądania według adresu URL, a nie zagregowany trend.
Ponadto w raporcie GSC występuje znany problem, w którym niektóre żądania nie są w tej chwili liczone, a pojawienie się danych w raporcie Statystyki indeksowania może potrwać nawet tydzień. (Ufamy jednak, że Google pracuje nad tymi problemami i wkrótce znikną!)
Oto, co zalecamy: użyj tego raportu, aby dowiedzieć się, czego dokładnie szukać w plikach dziennika. A potem zanurz się w swojej analizie logów!