Dlaczego OnCrawl to znacznie więcej niż robot indeksujący do komputerów stacjonarnych: szczegółowe informacje o naszej opartej na chmurze platformie SEO
Opublikowany: 2018-12-06OnCrawl został zbudowany wokół potrzeb SEO pierwszego francuskiego gracza e-commerce w 2015 roku. Oznaczało to, że musieliśmy przeskalować naszą analizę i poradzić sobie z witryną z ponad 50 milionami adresów URL w krótkim czasie. Trudne, powiedziałbyś, dla nowego gracza? Właściwie nasza infrastruktura, na którą wydaliśmy 1,5 mln € tylko na badania i rozwój i która wcześniej wspierała różne projekty danych, ułatwiła to. Ponieważ rozróżnienie między robotami komputerowymi i robotami w chmurze jest wciąż czasami niejasne, pomyśleliśmy, że przydatne może być wyjaśnienie, dlaczego OnCrawl ma do zaoferowania znacznie więcej niż zwykły robot robota — od dużych możliwości skalowania po integracje z innymi firmami i szybkość analizy.
Skalowanie do nieskończoności i poza nią
Przeszukiwacze komputerów stacjonarnych mają ograniczone możliwości przeszukiwania ze względu na zasoby i pamięć komputera, na którym działają. Najprawdopodobniej ograniczą się do indeksowania tylko kilku tysięcy adresów URL na indeksowanie. Chociaż może to być w porządku w przypadku małych witryn, indeksowanie tych adresów URL może zająć więcej czasu w porównaniu z robotem indeksującym SaaS (oprogramowanie jako usługa). Przeszukiwacze oparte na chmurze są rozmieszczone na wielu serwerach, więc nie jesteś ograniczony szybkością i rozmiarem maszyny.
Oznacza to, że nie ma indeksowania, z którym nie możemy sobie poradzić. Pracowaliśmy dla małych stron internetowych, jak również dla bardzo dużych stron internetowych, w tym niektórych firm z listy Fortune 500. Jak wspomniano we wstępie, opracowaliśmy nasz robot SEO po tym, jak Cdiscount, największa witryna e-commerce we Francji, poprosiła nas o zbudowanie niestandardowego rozwiązania do obsługi ponad 50 milionów adresów URL i potrzeb SEO w ramach jednego indeksowania. Dodatkowo nasze możliwości skalowania sprawiły, że dwa lata z rzędu zostaliśmy najlepszym narzędziem SEO podczas European Search Awards, wiodącej ceremonii w branży wyszukiwania. Obecnie zbieramy do 25 milionów adresów URL dziennie i na witrynę, czyli około 1 miliard stron internetowych i 150 miliardów linków miesięcznie. Tutaj możesz dowiedzieć się więcej o naszej technologii i sposobie postępowania z zasadami RODO.
Niestandardowa prędkość, szerokie możliwości
Ponieważ nasza aplikacja działa w chmurze, nie musisz myśleć o zasobach i możliwościach szybkości Twojej maszyny. Oznacza to również, że nie ma ograniczeń dotyczących czasu ani liczby indeksowań, które można uruchomić. Możesz uruchomić tyle indeksowań, na ile pozwala Twoja subskrypcja, i wykonywać inne czynności podczas indeksowania. Korzystanie z rozwiązania opartego na chmurze oznacza również, że możesz zamknąć okno aplikacji i poczekać na zakończenie indeksowania — działa samodzielnie i nie wymaga nadzoru. OnCrawl pozwala zaplanować indeksowanie na podstawie Twoich potrzeb SEO, niezależnie od tego, czy chcesz indeksować witrynę raz w tygodniu, czy co miesiąc. Możesz również zdecydować się na przyspieszenie analizy, jeśli potrzebujesz ich szybciej.
Ponieważ aplikacja OnCrawl może być używana do indeksowania dowolnej witryny internetowej, nasz bot będzie postępować zgodnie z dyrektywą Crawl-Delay wyrażoną w pliku robots.txt znajdującym się na docelowej witrynie, jeśli taki istnieje.
W przeciwnym razie ograniczamy szybkość indeksowania do 1 strony na sekundę, aby nasz bot nie był zbyt agresywny w stosunku do docelowej witryny.
Gdy witryna ma dyrektywę Crawl-Delay wyższą niż 1, nasza aplikacja wyświetla ostrzeżenie informujące, że indeksowanie będzie wolniejsze niż żądana prędkość.
Jeśli opóźnienie indeksowania jest większe niż 30, wyświetlamy błąd. Po prostu nie pozwolimy na skonfigurowanie indeksowania z tak dużym opóźnieniem indeksowania.
Jedynym sposobem skonfigurowania indeksowania w takich okolicznościach jest użycie wirtualnego pliku robots.txt.
Aby to zrobić, musisz najpierw zweryfikować projekt na swoim koncie Google Analytics, abyśmy mogli upewnić się, że masz prawo własności do domeny, którą chcesz zaindeksować.
Mamy kilka różnych parametrów, które pozwalają Ci przejąć kontrolę nad indeksowaniem:
- Przyspiesz indeksowanie
- Wstrzymaj, zatrzymaj, uruchom ponownie lub przerwij indeksowanie
- Zaplanuj indeksowanie, aby uniknąć szczytowego ruchu i zmniejszyć obciążenie serwera, gdy nasze boty odwiedzają Twoją witrynę
- Zobacz w czasie rzeczywistym, które strony zostały pobrane, ile URL-i pobraliśmy do tej pory i sprawdź, czy nie ma problemu ze spowolnieniem indeksowania.
Łatwa analiza plików dziennika
OnCrawl to znacznie więcej niż zwykły robot SEO. W ciągu ostatnich lat wydaliśmy również potężny analizator plików dziennika, który rozwiązuje problemy, których nie znalazło żadne inne rozwiązanie SEO.
Pełne pliki dziennika są doskonałym odzwierciedleniem życia Twojej witryny. Niezależnie od tego, czy są to odwiedzający, czy boty, wyświetlane strony czy wywołania zasobów, każda aktywność w Twojej witrynie jest w nim zapisywana.
Dzięki informacjom takim jak adres IP, kod statusu, klient użytkownika, strona odsyłająca i inne dane techniczne, każdy wiersz dziennika (dane po stronie serwera) może pomóc w przeprowadzeniu analizy witryny, która najczęściej opiera się na analizie (bardziej po stronie klienta). zorientowane).
Nasz analizator plików dziennika obsługuje każdy rodzaj formatów dziennika, od standardowych, takich jak IIS, Apache na Ngnix, po bardziej niestandardowe formaty. Nie ma analizy, której nie możemy zrobić. Umożliwiamy również naszym użytkownikom bezpośrednie pobieranie danych z logów z rozwiązań innych firm, takich jak Splunk, ELK / Elastic Stack, Amazon S3, OVH (ES) lub Cloudflare.
Oznacza to, że nie utkniesz już z dodatkowym menedżerem plików dziennika innej firmy, tak jak w przypadku niektórych naszych konkurentów.
Nasz interfejs ułatwia automatyczne przesyłanie plików dziennika przez bezpieczny i prywatny FTP. Wystarczy kilka kroków, aby ukończyć analizę plików dziennika.
Możesz także monitorować przetwarzanie plików w czasie rzeczywistym i sprawdzać, czy wystąpił błąd blokujący ich przesyłanie.
Nieograniczone integracje stron trzecich
OnCrawl pracował nad opracowaniem wbudowanych łączników z wiodącymi rozwiązaniami marketingu w wyszukiwarkach, bez których SEO nie mogą się obejść: Google Search Console, Google Analytics, Adobe Analytics czy Majestic, żeby wymienić tylko kilka. Integracja tych rozwiązań z procesem audytu nie jest zbędna: zapewnia bardziej wszechstronny obraz wydajności i kondycji Twojej witryny w wyszukiwarkach oraz wyjaśnia, jak boty i odwiedzający naprawdę zachowują się w Twojej witrynie. Oszczędzasz również czas i wysiłek, ponieważ nie musisz później ręcznie analizować tych danych w arkuszach kalkulacyjnych programu Excel.
Raport o linkach zwrotnych
Zbudowaliśmy godną zaufania relację z Majestic, wiodącym rozwiązaniem do analizy łączy. Nasza analiza danych krzyżowych pozwala łączyć dane indeksowania i dane dzienników z danymi linków zwrotnych, aby zrozumieć wpływ linków zwrotnych na ruch SEO i częstotliwość indeksowania. Po skonfigurowaniu segmentacji niestandardowych grup stron w całej witrynie na podstawie najważniejszych wskaźników KPI. Możesz także zwizualizować liczbę linków zwrotnych w stosunku do poziomu głębokości kliknięć w stronę lub zbadać, czy liczba linków zwrotnych ma wpływ na zachowanie Google.
Dostarczane przez nas analizy, w których dane o linkach zwrotnych są skorelowane i łączone na poziomie trafień URL i botów, są obecnie jedynymi na rynku.

Raport rankingowy
Opracowaliśmy również unikalny łącznik do Google Search Console, aby zrozumieć, w jaki sposób Twoja witryna jest wyszukiwana i indeksowana oraz jaki wpływ na ruch i indeksowanie mają Twoje optymalizacje na stronie. Zapewniamy standardowe, ale wyczerpujące informacje na temat rozmieszczenia słów kluczowych, wyświetleń, kliknięć i współczynnika klikalności w czasie, niezależnie od tego, czy są to komputery stacjonarne, czy urządzenia mobilne, słowa kluczowe związane z marką lub nie związane z marką, czy też grupy stron. Co ważniejsze, oferujemy również unikalną analizę, której nie osiągnął żaden z naszych konkurentów.
OnCrawl wykorzystuje segmentacje i dane z plików dziennika do interpretacji danych rankingowych. Możesz w ten sposób zidentyfikować wspólne cechy stron, które są w rankingu i te, które nie mają wpływu na głębokość, wewnętrzną popularność, liczbę słów, linki, czas ładowania i ocenę tytułu. Nie tylko to, ale możesz też zbadać wpływ długości opisu i uporządkowanych danych na współczynnik klikalności.
Wreszcie, OnCrawl Rankings umożliwia łączenie indeksowania, plików dziennika i danych Search Console na dużą skalę, aby wyróżnić strony z rankingiem i sprawdzić, czy budżet indeksowania wpływa na Twoje pozycje. Żadne inne indeksowanie, zarówno na komputerze, jak i w chmurze, nie obsługuje takich funkcji.
Raport analityczny
Umożliwiamy Ci połączenie Google Analytics lub Adobe Analytics (dawniej Omniture), aby zrozumieć, w jaki sposób SEO na stronie i techniczne SEO wpływają na wyniki ruchu organicznego z wyszukiwarek. Pomagamy monitorować wydajność ruchu SEO i zachowanie użytkowników w każdej sekcji Twojej witryny.
Przetwarzanie CSV
Chociaż stale pracujemy nad nowymi integracjami z rozwiązań innych firm, nie chcieliśmy pozostawić Cię bez określonego typu danych, które mogą być potrzebne do przeprowadzenia technicznych audytów SEO. Dlatego umożliwiamy przesyłanie plików CSV na dużą skalę (możesz przesłać miliony wierszy), aby dodać nową warstwę danych na poziomie adresu URL. Możesz tworzyć własne segmentacje i filtry na podstawie tych konkretnych danych (rankingi, CRM, dane biznesowe, dane Google Ads itp.), aby sprawdzić, czy Twoje najbardziej strategiczne strony spełniają Twoje cele.
Otwarte API, niestandardowa analiza
OnCrawl jest oparty na platformie zbudowanej wokół API. Interfejs OnCrawl REST API służy do uzyskiwania dostępu do danych indeksowania oraz zarządzania projektami i indeksowaniami. Aby korzystać z tego API, musisz mieć konto OnCrawl, aktywną subskrypcję i token dostępu.
Możesz stworzyć własną aplikację, aby bardzo łatwo zażądać tego interfejsu API. Można to zrobić za pomocą tokena API wygenerowanego przez konto użytkownika lub za pomocą aplikacji OAuth do łączenia się z OnCrawl przy użyciu konta użytkownika.
Korzystając z naszego interfejsu API, możesz pisać aplikacje, które w pełni wykorzystują wiele funkcji OnCrawl, wdrażanych we własnym środowisku, przy użyciu preferowanego języka programowania i platform. Oznacza to, że możesz tworzyć niestandardowe pulpity nawigacyjne, integrować nasze dane z innymi platformami i automatycznie uruchamiać indeksowanie po aktualizacji witryny.
Ponadto, aby ułatwić Ci integrację, wszystkie nasze wykresy zawierają wywołania API i format odpowiedzi w ikonie informacyjnej.
Trendy i optymalizacje na przestrzeni czasu
OnCrawl organizuje indeksowania w Twoich projektach według dat. Przechowujemy Twoje dane indeksowania, gdy Twoja subskrypcja jest aktywna, co oznacza, że możesz śledzić analizy z miesięcy, a nawet lat. Należy pamiętać, że jeśli korzystasz z naszej funkcji Monitorowania logów, aplikacja OnCrawl obsługuje dane osobowe w postaci adresów IP osób odwiedzających Twoją witrynę. Informacje te są wymagane w celu niezawodnego odróżnienia Googlebotów od innych odwiedzających. Adresy IP nie są przechowywane w aplikacji OnCrawl. Te dane istnieją tylko w oryginalnym pliku, który przesyłasz na prywatny, bezpieczny serwer FTP.
Oferujemy również rozbudowane funkcje, które pozwalają porównać dwa indeksowania w oparciu o tę samą konfigurację indeksowania, aby dostrzec trendy i zmiany w czasie. To świetny sposób na porównanie wersji testowej i live oraz sprawdzenie, czy podczas migracji wszystko poszło gładko.
Możesz także udostępniać swoje projekty kolegom z zespołu lub klientom, co jest świetnym sposobem na udowodnienie wartości optymalizacji i dzielenie się wynikami.
Pokazuje ewolucję zduplikowanych treści między dwoma indeksowaniami
Pokazuje ewolucję ruchów głębokości między dwoma kraulami
Semantyka wszędzie
Innowacja jest w naszym DNA i od lat pracujemy nad ewangelizacją technicznego SEO. Przez ponad 15 lat pracy nad zagadnieniami przetwarzania języka naturalnego Tanguy Moal, CTO w OnCrawl, pomógł nam połączyć technologie semantyczne i Big Data, aby zrozumieć ogromną ilość danych dostępnych w sieci. Udało nam się osiągnąć pierwszy w historii wykrywacz treści o niemal zduplikowanej treści, wykorzystujący algorytm Simhash.
Klaster podobnych stron z oceną kanoniczną – klastry można filtrować według liczby stron lub procentu podobieństwa treści
Ostatnio pracowaliśmy również nad detektorem treści map termicznych, który pomaga naszym użytkownikom identyfikować bloki unikalnej treści oraz procent duplikacji na stronach internetowych i w całej witrynie. Semantyka jest częścią naszego robota SEO: analiza n-gramów jest dostępna od samego początku, aby pomóc Ci zrozumieć, w jaki sposób sekwencje słów są rozmieszczone w witrynie. Jesteśmy jedynym robotem indeksującym opartym na chmurze z takimi możliwościami semantycznymi. W obszarze, w którym rośnie liczba zapytań związanych z konwersacją, semantyczne SEO pomaga poprawić ruch w witrynie dzięki znaczącym metadanym i treściom o znaczeniu semantycznym, które mogą jednoznacznie dostarczyć odpowiedzi na konkretny cel wyszukiwania.
OnCrawl to znacznie więcej niż zwykły robot indeksujący i oferuje niezrównaną, opartą na chmurze analizę SEO na dużą skalę. OnCrawl pozwala Ci działać, aby naprawdę zrozumieć, jak wyszukiwarki zachowują się w Twojej witrynie i bez obaw tworzyć strategię SEO.
Nie wierz nam na słowo. Wypróbuj sam i rozpocznij bezpłatny okres próbny już dziś.