[Webinar Digest] SEO di Orbit: Rankbrain, AI, pembelajaran mesin, dan masa depan pencarian
Diterbitkan: 2019-11-13Webinar Rankbrain, AI, pembelajaran mesin, dan pencarian masa depan adalah bagian dari SEO di seri Orbit, dan ditayangkan pada 19 Juni 2019. Dalam episode ini, Bill Slawski memanfaatkan pengetahuannya tentang paten Google dan cara kerja pencarian untuk memecahkan turunkan kemungkinan algoritme penelusuran yang digunakan saat ini dan tentukan seperti apa tampilannya di bawah kap versi Google di masa mendatang. Bergabunglah dengan kami saat kami menjelajahi masa depan SEO teknis.
SEO di Orbit adalah seri webinar pertama yang mengirimkan SEO ke luar angkasa. Sepanjang seri, kami membahas masa kini dan masa depan SEO teknis dengan beberapa spesialis SEO terbaik dan mengirimkan tip terbaik mereka ke luar angkasa pada 27 Juni 2019.
Tonton tayangan ulangnya di sini:
Mempersembahkan Bill Slawski
Seorang ahli paten mesin pencari otodidak, Bill Slawski adalah Direktur jangkauan SEO di Go Fish Digital dan seorang blogger di SEO by the Sea. Dalam kata-kata Bill sendiri: “Saya bukan Ilmuwan komputer, dan saya bukan ahli matematika. Saya memiliki gelar sarjana dalam bahasa Inggris dan gelar Jurisdoctor di bidang Hukum. Saya telah membaca paten dari mesin pencari sejak sekitar tahun 2005, untuk belajar tentang apa yang mereka katakan tentang pencarian, pencari, dan Web. Banyak dari paten ini mencakup algoritme yang bertujuan untuk mengatasi masalah tertentu, dan menurut saya banyak yang membantu dalam hal melakukan SEO.”
Episode ini dipandu oleh Francois Goube, pengusaha serial, dan Co-Founder dan CEO OnCrawl. Dia telah mendirikan beberapa perusahaan dan aktif terlibat dalam ekosistem startup. Bergairah tentang analisis semantik dan mesin pencari, dia suka menganalisis publikasi ilmiah Google dan menjadi pembicara reguler di konferensi SEO.
Apa itu AI dan pembelajaran mesin?
Ada banyak definisi AI.
Banyak pekerjaan Google berfokus pada jaringan saraf, yang mengarah pada cara kerja pembelajaran mesin. Ini menggunakan satu set data yang mewakili kumpulan data yang ideal, ditandai untuk menekankan fitur tertentu tentangnya, yang digunakan untuk melatih pengklasifikasi. Ini kemudian dilepaskan pada kumpulan data lain untuk menganalisis dan mengklasifikasikan informasi baru berdasarkan apa yang mereka pelajari dari kumpulan sampel. Itu pembelajaran mesin.
Area yang dicakup oleh AI
– Bahasa alami
AI dapat mencakup area yang berbeda, seperti pemahaman bahasa alami yang lebih baik. Ada sejumlah teknik yang terlibat, dan banyak hal yang muncul dari Google menggambarkan apa yang terlibat dalam analisis bahasa alami.
– Menjawab pertanyaan
Paten (tautan) baru-baru ini mencoba mengisi kekosongan dalam skema penjawab pertanyaan.
Ini menjelaskan bagaimana Google dapat menggunakan grafik pengetahuan untuk memahami apa jawaban atas sebuah pertanyaan. Misalnya, jika ada informasi yang hilang atau data yang salah untuk entitas, Google mungkin mencoba memperkirakan jawabannya berdasarkan informasi yang terkait dengan fakta terkait.
Yang menarik dari paten ini bukanlah bahwa Google menggunakan perkiraan untuk menjawab pertanyaan, tetapi mereka memberikan penjelasan untuk perkiraan mereka.
– Meniru pemikiran manusia (jaringan saraf)
Pembelajaran mesin didasarkan pada AI, meniru cara kerja pemikiran manusia. Jaringan pembelajaran mesin disebut jaringan saraf karena mereka dibangun untuk mencoba meniru cara kerja neuron di otak.
Rankbrain
– Kaitannya dengan Hummingbird dan konteks kata
Baik Rankbrain dan Hummingbird adalah pendekatan penulisan ulang kueri. Hummingbird mencoba untuk lebih memahami konteks kueri dengan melihat semua kata dalam kueri. Sebelumnya, Google hanya akan melihat kata-kata di samping satu sama lain untuk memahami konteks; Hummingbird melihat melampaui kata-kata tepat di samping satu sama lain. Bahkan mungkin memperhitungkan kalimat lengkap dalam kueri percakapan. Hummingbird mencoba menggunakan semua kata dalam kueri bersama-sama untuk memahami konteksnya.
– Penulisan ulang kueri di Rankbrain menggunakan pendekatan penyisipan kata
Tidak seperti Hummingbird, Rankbrain menggunakan pendekatan penyisipan kata. Ini memeriksa bagian tekstual pendek dan mampu menentukan apakah ada kata-kata yang hilang. Ini dilakukan dengan melatih kumpulan data yang besar (200 miliar kata).
– Menemukan kata-kata yang hilang dalam kueri
Misalnya, kueri "teka-teki New York Times" dapat ditafsirkan dengan benar karena kehilangan kata "teka-teki silang". Rankbrain menambahkan kata yang hilang ke kueri dan mengembalikan hasil teka-teki silang New York Times kepada pencari, karena mungkin itulah yang mereka inginkan.
– Bisakah Anda mengoptimalkan Rankbrain?
Penting untuk dicatat bahwa Anda tidak dapat mengoptimalkan halaman untuk Rankbrain. Beberapa SEO telah menulis artikel yang mengatakan bahwa Anda bisa. Namun, dari semua yang telah dilihat Bill tentang algoritme, ini menunjukkan bahwa ini adalah proses penulisan ulang kueri, bukan sesuatu yang memengaruhi evaluasi halaman.
Algoritme Google tambahan menggunakan pembelajaran mesin
Google tidak memiliki satu "algoritma" yang menggerakkan mesin pencari. Ini memiliki banyak algoritma berbeda yang berkontribusi pada cara kerjanya. Rankbrain adalah salah satu dari banyak.
– Menggunakan skor kualitas dalam kategori
Ini mungkin berarti, misalnya, ketika Google menentukan bahwa ada banyak hasil tipe informasional untuk kueri tertentu, alih-alih memberi peringkat halaman berdasarkan skor pengambilan informasi atau peringkat otoritas seperti PageRank, mereka mungkin mempertimbangkan kategori. Dari sana, mereka mungkin memberikan Skor Kualitas dalam kategori situs web. Ini akan memberikan rangkaian hasil yang lebih beragam dan memastikan bahwa hasil berkualitas lebih tinggi dapat bergerak lebih cepat ke puncak hasil.
– Popularitas halaman untuk hasil navigasi
Jenis algoritme peringkat ini juga menyukai halaman yang lebih populer (halaman yang cenderung dikunjungi orang), terutama untuk hasil tipe navigasi. Ketika pencari sudah mengetahui bahwa halaman tersebut adalah sesuatu yang ingin mereka lihat, halaman tersebut akan cenderung berperingkat tinggi dalam kategori paradigma Skor Kualitas.
– Pengaruh RKT SERP
Skor Kualitas Kategori juga menyarankan bahwa halaman yang sering dipilih dalam hasil pencarian juga merupakan halaman berkualitas tinggi dan juga akan berperingkat tinggi di bawah pendekatan kualitas kategori ini.
Namun, meskipun pendekatan skor kualitas kategori jelas merupakan pembelajaran mesin, itu bukan Rankbrain.
Rankbrain untuk memenuhi kebutuhan situasional para pencari
Rankbrain mencoba memahami apa yang mungkin hilang dalam kueri. Aspek terpenting dari Rankbrain adalah bahwa ia berusaha memenuhi kebutuhan situasi para pencari: apa maksud sebenarnya dari orang ini ketika mereka mengetikkan kueri ke dalam kotak?
Kueri kata kunci sebelumnya vs kueri lisan dan percakapan saat ini
Jika kita beralih ke kueri lisan dan jenis percakapan, akan ada lebih banyak kata yang terlibat daripada pendekatan kata kunci yang digunakan sebelumnya.
Sebagai seorang pencari, Anda mencoba menebak kata-kata apa yang perlu Anda gunakan untuk menemukan informasi yang Anda butuhkan. Dan Anda tidak perlu membuat tebakan semacam ini. Jika Anda meminta apa yang Anda inginkan, Google harus dapat menganalisisnya dan menentukan apa yang mungkin Anda maksudkan. Ini adalah peran Rankbrain.
Pendekatan pemrosesan bahasa alami
Salah satu hal yang kami lihat adalah Google lebih memperhatikan pemrosesan bahasa alami. Kami melihat pendekatan pemrosesan bahasa alami muncul.
- Pencocokan Saraf
Danny Sullivan mentweet sedikit tentang sesuatu yang dia sebut pencocokan saraf.
Beberapa bulan terakhir, Google telah menggunakan pencocokan saraf, – metode AI untuk menghubungkan kata dengan konsep dengan lebih baik. Sinonim super, di satu sisi, dan memengaruhi 30% kueri. Tidak tahu apa itu "efek sinetron" untuk mencarinya? Kita bisa mengetahuinya dengan lebih baik. pic.twitter.com/Qrwp5hKFNz
— Danny Sullivan (@dannysullivan) 24 September 2018
Dia mengatakan ini adalah sarana untuk lebih memahami kata-kata di halaman dan arti kata-kata itu dalam konteksnya. Dia memberikan beberapa contoh bagaimana satu kata bisa berarti tiga atau empat hal yang berbeda tergantung pada bagaimana itu diposisikan dalam sebuah kalimat.
– Penyematan Kata
Google telah merilis paten tentang penggunaan pendekatan jenis penyisipan kata (seperti yang mereka gunakan di Rankbrain untuk memahami kueri tekstual pendek itu) untuk jumlah teks yang lebih panjang, seperti halaman web.
– Bingkai Semantik
Bingkai semantik adalah ketika Anda menggunakan bahasa yang ideal untuk situasi tertentu. Dalam setiap situasi, ada bahasa tertentu yang digunakan. Misalnya, poin dalam konteks hipotek atau pembelian real estat tidak memiliki arti yang sama dengan poin dalam permainan dadu atau papan.
Jika Anda memahami kerangka kerja, Anda dapat lebih memahami konteks kata-kata di halaman.
Ini juga dapat membantu membedakan antara kata-kata di mana maknanya sendiri berbeda dari situasi ke situasi. “Kuda”, misalnya, tidak memiliki arti yang sama bagi seorang penunggang kuda dan seorang tukang kayu. Paten lain juga telah mengeksplorasi metode tambahan untuk memahami perbedaan kontekstual dalam arti.
Menggunakan pembelajaran mesin untuk mengidentifikasi penulis berdasarkan gaya penulisan
Cukup mudah bagi mesin untuk mengidentifikasi gaya penulisan seseorang. Ada paralel antara ini dan klasifikasi tematik konten karena gaya standar dalam industri seperti real estat, olahraga, dll.
Sebagai seorang mahasiswa bahasa Inggris, Bill menganalisis sastra dan melihat berbagai cara penulis mengekspresikan diri, dan mengapa.
– Penulis menilai paten menggunakan frekuensi kutipan
Google memang memiliki paten mengenai skor penulis. Untuk menilai penulis, salah satu faktor yang dipertimbangkan adalah seberapa sering mereka dikutip oleh penulis lain.
– Penampil N-Gram Google Buku
Google melakukan banyak pekerjaan dengan model bahasa. Mereka telah memindai sejumlah besar buku. Penampil N-Gram memungkinkan Anda melihat bagaimana popularitas frasa berkembang selama bertahun-tahun.
– Paten Skor Kualitas oleh N. Panda menggunakan model bahasa
Paten Skor Kualitas oleh N. Panda berbicara tentang penggunaan N-gram dan membangun model bahasa untuk memahami kualitas halaman web berdasarkan perbandingannya dengan model bahasa lainnya.
Ini adalah contoh yang bagus dari pembelajaran mesin dalam teknologi mesin pencari. Kami memiliki kumpulan data halaman yang diberi skor sebelumnya, dan kami membandingkan halaman baru dengan halaman berdasarkan data dari kumpulan sampel asli. Karena ini digunakan untuk menentukan kualitas, halaman yang berisi karakteristik halaman yang ditulis dengan baik dari kumpulan aslinya akan mendapatkan skor yang lebih tinggi.
Jenis model bahasa ini juga dapat digunakan untuk memahami gaya penulisan penulis yang berbeda.
Pembelajaran mesin masa depan dengan data terstruktur
Pembelajaran mesin juga terlihat dalam cara Google mengelola entitas, dalam terjemahan, dan dalam tampilan yang dinamai Cindy Krum sebagai Fraggles.
– Menjawab bagian dan memperkuat konten tekstual
Ada paten lain yang berbicara tentang bagian jawaban, di mana Google mengusulkan mekanisme untuk menggunakan bagian tekstual yang ditemukan di halaman web untuk memberikan jawaban atas pertanyaan. Ini baru-baru ini diperbarui untuk melihat tidak hanya pada bagian tekstual tetapi juga pada data terstruktur yang memperkuat teks.
– Pengecekan fakta dan konsistensi
Menggunakan Skema memberikan redundansi informasi. Ini memberi Google sarana untuk memeriksa konsistensi fakta informasi di halaman web dengan membandingkan informasi tekstual dengan informasi yang diberikan dalam mark-up terstruktur.
Ini adalah hal yang sama yang terjadi di peta Google di mana Google melihat nama, alamat, dan nomor telepon.
Konsistensi memberikan tingkat keyakinan bahwa jawabannya mungkin lebih mungkin benar.
– Halaman FAQ dan halaman petunjuk
Saat Google memperkenalkan halaman FAQ dan dukungan Skema Cara, kami melihat mereka bergerak menuju cara membuat pemilik situs membangun Skema yang mencerminkan apa yang mungkin mereka masukkan ke dalam teks di halaman web.
Strategi untuk memahami konteks di halaman web
Google telah mengambil langkah lain untuk mencoba memahami konten dengan lebih baik di dalam halaman web. Berikut adalah beberapa:
– Penggunaan basis pengetahuan dan istilah konteks
Paten Google telah mengindikasikan bahwa mereka mungkin melihat basis pengetahuan dan mungkin mengumpulkan definisi istilah konteks dari basis pengetahuan tersebut. Mereka kemudian mungkin mencari keberadaan istilah konteks ini di halaman web untuk membantu menentukan makna kata yang bergantung pada konteks mana yang paling mungkin.
Jadi halaman tentang kuda (binatang) mungkin berisi kata-kata seperti "pelana", sedangkan halaman tentang jenis kuda lain mungkin berisi kata-kata seperti "pertukangan".
– Pengindeksan berbasis frasa
Pendekatan lain untuk pembelajaran semantik untuk memahami topik pada halaman berasal dari tahun 2004 atau lebih. Pengindeksan berbasis frasa tidak hanya lama, tetapi juga subjek dari setidaknya 20 paten dan telah diperbarui dan diubah beberapa kali. Semua ini menunjukkan kepada Bill bahwa pengindeksan berbasis frasa adalah sesuatu yang sangat penting dalam algoritme Google.
– Membangun indeks terbalik dari frase prediksi topik
Salah satu paten yang terkait dengan pengindeksan berbasis frasa menjelaskan pembuatan indeks terbalik dari frasa yang muncul di halaman dan yang memprediksi topik. Contohnya adalah frasa seperti "Presiden Amerika Serikat", "Sekretaris Negara" atau "Wawancara Taman Mawar" yang merupakan prediksi topik semantik "Gedung Putih".
Pengetahuan subjek webmaster dalam Skema
Google sedang mengembangkan penggunaan hal-hal seperti Skema, tetapi definisi jenis hal yang dijelaskan oleh Skema disediakan oleh webmaster. Dengan cara ini, webmaster dapat berkontribusi untuk membangun grafik pengetahuan bersama dengan mesin pencari.
Misalnya, Google telah menambahkan "knows-about" sebagai aspek Skema. Namun, webmaster adalah orang yang menunjukkan bahwa pengacara dapat mengetahui tentang hukum admiralty atau hukum paten, yang pada gilirannya membantu mengisi grafik pengetahuan.
Representasi pengetahuan berbasis mesin adalah upaya kolaboratif.
[Studi Kasus] Mengelola perayapan bot Google
Pencarian yang berkembang dan praktik SEO yang ketinggalan zaman
– Kata-kata yang berulang dalam teks alt
Memberi tahu Google bahwa foto seseorang perlu disebutkan dua kali tidak membantu Google memahaminya dua kali juga. Bahkan mungkin bisa menurunkan estimasi mesin pencari dari nilai halaman.
– LSI ditujukan untuk database statis kecil
Pembuat alat terus menyarankan agar SEO menggunakan teknik lama. Salah satu contohnya adalah pengindeksan semantik laten (LSI), yang dikembangkan pada tahun 1989. Ini ditujukan untuk database statis kecil yang tidak seukuran web dan tidak tumbuh dengan kecepatan web.
Setiap kali Anda ingin menggunakan LSI, Anda harus memiliki database versi terbaru. Jika Anda terus menambahkan informasi ke korpus, itu perlu dijalankan lagi. Ini berarti tidak terlalu berguna untuk web.
– TF-IDF bekerja dengan akses ke korpus penuh saja
TF-IDF (istilah frekuensi-indeks dokumen frekuensi) adalah contoh lain. Ini bekerja paling baik jika Anda memiliki akses ke korpus penuh informasi yang diindeks, dalam hal ini world wide web. Anda menggunakan TF-IDF ketika Anda ingin mengetahui kata-kata yang paling umum, dan kata-kata yang langka di seluruh korpus. Tetapi jika Anda hanya menggunakan kumpulan halaman sepuluh peringkat teratas untuk istilah tertentu daripada seluruh web, Anda tidak dapat menetapkan frekuensi istilah yang sebenarnya.
Ini dapat sangat mempengaruhi keakuratan analisis Anda.
Harapan webmaster dan kemampuan Google: kebutuhan akan komunikasi dari Google
Meskipun ada pengumuman baru-baru ini, kami sebenarnya tidak tahu bahwa markup pagination tidak berguna untuk mesin telusur.
Meskipun markup pagination tidak lagi digunakan untuk mengelola konten duplikat pada halaman yang diberi halaman, kami memiliki harapan tertentu dari Google. Mereka harus dapat memahami kapan halaman-halaman tersebut disusun secara seri. Pengumuman seperti ini mengungkapkan kesulitan untuk mengetahui seberapa baik atau seberapa buruk Google dalam apa yang mereka lakukan.
Menggunakan kata-kata yang sering muncul bersamaan
Trik teknis favorit Bill adalah melihat kata-kata yang sering muncul bersamaan yang berperingkat tinggi untuk istilah tertentu dan memastikan dia menggunakannya dalam konten, baik di badan maupun di teks jangkar yang menunjuk dari halamannya ke halaman terkait. Ini mengambil keuntungan dari "jangkar hits", yang seharusnya diperlakukan oleh mesin pencari sebagai "tautan ahli."
Strategi ini diambil dari pengindeksan berbasis frase.
– Probabilitas statistik dari kemunculan bersama frase
Paten pengindeksan berbasis frase diperbarui sekitar dua tahun lalu. Pendekatan ini sekarang menggunakan berapa banyak istilah terkait yang muncul di halaman untuk menentukan peringkat halaman.
Namun, jika lebih dari jumlah istilah terkait yang mungkin secara statistik muncul di halaman, itu dapat ditandai sebagai spam. Misalnya, jika Anda menggores banyak halaman tentang suatu topik dan meletakkan semuanya di satu halaman, Anda akan memiliki terlalu banyak istilah terkait untuk itu terjadi secara alami.
Ini sangat cocok dengan cara Bill melakukan riset kata kunci. Dia melihat halaman serupa dan membuat daftar frasa atau kata serupa yang sering muncul. Dia mungkin mencoba menggunakan beberapa dari mereka di halamannya sendiri, bahkan jika dia tidak mencoba memberi peringkat untuk mereka. Ini membangun konten yang relevan dengan kata kunci yang ingin dia peringkatkan.
LSI vs menggunakan sinonim atau konten yang terkait secara semantik
Kehebohan seputar LSI adalah salah satu topik yang paling tidak disukai Bill, sebagian karena istilah itu menyesatkan. Apa yang disarankan banyak orang ketika pembicaraan tentang LSI tidak ada hubungannya dengan pengindeksan semantik laten. Sebaliknya, mereka hanya menyarankan untuk menambahkan sinonim atau konten terkait semantik ke halaman.
Indeks terbalik pengindeksan berbasis frasa, dan basis pengetahuan yang dapat menyediakan istilah konteks menunjukkan bahwa ada istilah, dan sumber yang dapat Anda kunjungi, untuk menemukan kata yang mungkin berguna jika Anda benar-benar mencari istilah yang muncul bersamaan di peringkat tinggi halaman untuk kata kunci Anda.
Kata-kata yang tampak seperti sinonim terkadang tidak, menurut perkiraan Google.
Pengindeksan cepat dengan alat pengiriman URL
Alat Pengajuan URL di versi baru Google Search Console adalah cara yang sangat cepat untuk membuat halaman diindeks. Bill telah melihat pembaruan disebarkan ke SERP dalam satu atau dua menit.
Harapan Bill untuk markup masa depan: informasi lebih lanjut untuk paten
Pertanyaan audiens: Markup Skema apa yang ingin Anda lihat ditambahkan di masa mendatang?
Karena dia banyak menulis tentang paten, Bill ingin melihat cara yang lebih baik untuk menangkap fitur unik paten. Beberapa fitur tersebut antara lain:
- Kelas (apa yang dimaksudkan untuk ditangani oleh paten)
- Nama paten, meskipun "entitas utama halaman" dapat mencakup fitur ini
Karena Google sudah memungkinkan Anda untuk mencari berdasarkan fitur Skema, finalitasnya adalah dapat meningkatkan pencarian paten, sehingga orang dapat meminta untuk melihat paten yang mencakup kategori tertentu.
Apakah Answer Engine Optimization masa depan pencarian?
Pertanyaan audiens: Apakah menurut Anda SEO akan menjadi AEO di masa depan?
Bill percaya bahwa, di satu sisi, SEO selalu menjadi AEO.
– Indikasi Google yang lebih lama sebagai mesin penjawab
Kami tidak harus melalui evolusi. Ada indikasi 15 tahun bahwa Google sedang menuju ke arah ini, misalnya:
- 2004: Fitur kamus yang memungkinkan pengguna mencari arti kata
- 2005: Posting blog “Just the Facts” menampilkan cuplikan fitur pertama atau jawaban langsung yang tidak puas dengan menyediakan sepuluh tautan biru, tetapi lebih suka memberikan tanggapan tekstual.
– Sergey Brin: paten untuk algoritma untuk memahami fakta dan hubungan antar fakta
Indikasi lain bahwa Google sebagai mesin penjawab bukanlah hal baru adalah adanya paten oleh Sergey Brin pada algoritma untuk memahami fakta dan hubungan antar fakta. Paten ini mencakup lima buku, judulnya, penerbitnya, pengarangnya, dan seterusnya.
Teorinya adalah bahwa bot akan merayapi web mencari buku-buku ini dan–
[Gangguan oleh OK Google]
– Tanda air audio
Ada juga konsep tanda air audio yang memanfaatkan frekuensi ultra-tinggi. Mereka akan berada di luar jangkauan pendengaran manusia, tetapi anjing dan komputer akan dapat mengidentifikasi mereka. Ini memungkinkan penyedia yang berbeda untuk melacak fakta bahwa Anda telah mendengar iklan bertanda air dan mungkin tertarik dengan produk tersebut.
Ini telah ada setidaknya selama lima tahun, dan bukan sesuatu yang telah dibahas dalam SEO.
Tip teratas
“Ada banyak informasi yang salah tentang topik seperti RankBrain, Neural Matching, dan Machine Learning di Web. Beberapa di antaranya mencakup fakta yang diteliti dengan cermat yang dicampur dengan informasi yang salah, jadi berhati-hatilah dengan apa yang Anda andalkan. ”
SEO di Orbit pergi ke luar angkasa
Jika Anda melewatkan perjalanan kami ke luar angkasa pada tanggal 27 Juni, tangkap di sini dan temukan semua tip yang kami kirimkan ke luar angkasa.