Googleの仕組み:Googleランキングエンジニアのストーリー#SMX
公開: 2022-06-12GoogleソフトウェアエンジニアのPaulHaahrは、14年以上Googleに在籍しています。 そのうちの2人は、マット・カッツとオフィスを共有していました。 彼はSMXWest2016のステージに立って、Googleエンジニアの観点からGoogleがどのように機能するかを共有しています。または、少なくとも30分でできるだけ多くのことを共有しています。 その後、ウェブマスタートレンドアナリストのゲイリーイリーズがステージに加わり、2人は検索エンジンの土地編集者であるダニーサリバンがモデレートしてSMXの聴衆からの質問に答えます(Q&Aの部分にジャンプしてください!)。
Googleのしくみ
Haahrは、Googleのエンジニアが何をしているのかを教えてくれます。 彼らの仕事は次のとおりです。
- 検索用のコードを書く
- メトリックの最適化
- 新しい信号を探しています
- 古い信号を新しい方法で組み合わせる
- 良い評価で結果を上げる
- 悪い評価で結果を下げる
- 評価ガイドラインの修正
- 必要に応じて新しいメトリックを開発する
検索エンジンの2つの部分:
- 事前に(クエリの前に)
- クエリ処理
クエリの前
- ウェブをクロールする
- クロールされたページを分析する
- リンクを抽出する
- コンテンツをレンダリングする
- セマンティクスに注釈を付ける
- インデックスを作成する
インデックス
- 本の索引のように
- 単語ごとに、それが表示されるページのリスト
- 数百万ページのグループに分割
- さらに、ドキュメントごとのメタデータ
クエリ処理
- クエリの理解と拡張
クエリは既知のエンティティに名前を付けていますか? - 検索とスコアリング
- すべてのシャードにクエリを送信します
各シャード- 一致するページを検索します
- クエリ+ページのスコアを計算します
- スコアでトップNページを送り返します
- すべてのトップページを組み合わせる
- スコアで並べ替え
- すべてのシャードにクエリを送信します
- 検索後の調整
- ホストクラスタリング
- 重複はありますか
スコアリング信号
信号は次のとおりです。
- スコアリングに使用される情報
- クエリに依存しない–ページの機能
- クエリに依存
指標
「それを測定できなければ、それを改善することはできません」–ケルビン卿
- 関連性
- ページはユーザーの質問に役立つように答えますか
- ランキングのトップライン指標
- 品質
- 私たちが示す結果はどれほど良いですか
- 結果が出るまでの時間(速いほど良い)
Googleはライブ実験で自分自身を測定します:
- 実際の交通に関するA/B実験
- クリックパターンの変化を探す
- ある実験または別の実験で多くのトラフィックが発生しています
かつて、Googleは41の異なるブルーをテストして、どれが最適かを確認しました。
Googleは人間による評価者の実験も行っています。
- 実在の人物の実験的な検索結果を表示する
- 結果はどうですか
- 評価者全体の評価を集計する
- 評価者の基準を説明するガイドラインを公開する
- ツールは、Mechanical Turkと同様に、自動化された方法でこれを行うことをサポートします
Googleは2つの主な要因でページを判断します。
- Needs Met(モバイルが前面と中央にある場合)
- ページ品質
Metグレードが必要:
- 完全に会う
- 非常によく会う
- 非常に会う
- 適度に会う
- 少し会う
- 会うことができない
ページ品質の概念:
- E xpertise
- 好奇心
- さびに強い
Googleエンジニアの開発プロセス:
- 考え
- 準備ができるまで繰り返します
- コードを書く
- データを生成する
- 実験を実行する
- 分析する
- 定量アナリストによる発表レポート
- レビューを開始
- 発売
何が問題なのですか?
問題には2種類あります。
- 体系的に悪い評価
- 指標は、私たちが気にかけていることを捉えていません
悪い評価の例を次に示します。 誰かが[Texasfarmfertilizer]を検索すると、検索結果から製造元の本社への地図が表示されます。 それが彼らが望んでいることである可能性は非常に低いです。 Googleは、ライブ実験を通じてこれを決定します。 評価者がマップを見て、それを「非常に満たす」ニーズとして評価する場合、これは評価の時点で失敗です。
または、メトリックが欠落している場合はどうなりますか? 2009年から2011年にかけて、低品質のコンテンツについて多くの苦情がありました。 しかし、コンテンツファームが原因で、関連性の指標は上昇し続けました。 結論: Googleは必要な指標を測定していませんでした。 したがって、品質メトリックは、関連性とは別に開発されました。
これがPaulHaahrのスライドデッキです。これは一見の価値があります。
アップデート7/19:プレゼンテーションは、作成者によって非公開としてマークされました。
GaryIllyesとPaulHaahrがSMXオーディエンスからの質問に答えます
SMX:RankBrainはこれらすべてにどのように適合しますか?
Haahr: RankBrainは信号のサブセットを見ることができます。 RankBrainがどのように機能するかについてはあまり詳しく説明できません。 私たちはそれがどのように機能するかを理解していますが、それが何をしているのかほどではありません。 ディープラーニングについて公開したものをたくさん使用しています。
ランクブレインはどのようにしてページの権限を知るのでしょうか?
Haahr:それはすべてそれが受けるトレーニングの機能です。 クエリやその他のシグナルを確認します。 それ以上に役立つとは言えません。
SMX:Googleアプリにログインするとき、収集した情報によって区別しますか? Google NowとChromeを使用している場合、表示内容に影響を与える可能性がありますか?
Haahr:ログインしているかどうかは本当に問題です。 私たちは一貫した体験を提供します。 あなたの閲覧履歴はどちらかにあなたに従います。
Googleは、1日のさまざまな時間に、同じクエリに対してさまざまな結果を提供しますか?
イリーズ:わかりません。 たとえば、マップでは、関連するマップを表示すると、時間が表示されます。 ゲイリーの知る限り、表示される内容は変わりません。
SMX:パンダとペンギンはどうなっているのですか?
Illyes:ペンギンの日付やタイムラインをあきらめました。 打ち上げ方を考えて取り組んでいますが、正直なところ日付がわからず、すでに3、4回間違えていたので、日付は言いたくありませんし、ビジネスにも悪いです。
SMX:Google後の著者、著者の権限をどのように追跡していますか?
Haahr:ここでは詳しく説明しません。 私が言うことは、評価者は彼らが見ているページのためにそれを手動でレビューすることが期待されているということです。 私たちが測定するのは、評価者が良い権威であると考える結果を提供するという良い仕事をすることができるかということです。
SMX:それは、権限が直接的または間接的な要因として使用されることを意味しますか?
Haahr: 「はい」または「いいえ」とは言いません。 それよりもはるかに複雑で、直接答えることはできません。
SMX:明示的なオーサリングが終了したとき、Googleは署名記事を持ち続けるように言いました。 rel = authorを気にする必要がありますか?
Illyes:将来の開発のためだけにrel=authorタグの使用を検討しているチームが少なくとも1つあります。 私がSEOだったとしても、私はまだタグを残していました。 それを持っていても害はありません。 ただし、新しいページでは、持つ価値がない可能性があります。 将来的には何かに使うかもしれませんが。
SMX:今何を読んでいますか?
Haahr:私はたくさんのジャーナリズムとごく少数の本を読みました。 しかし、私は「City on Fire」を終えたばかりです。それは、70年代のニューヨークについてです。 900ページあり、終わってがっかりしました。 「ここでは起こりえない」を始めたばかりです。