Google 작동 방식: Google 순위 엔지니어의 이야기 #SMX
게시 됨: 2022-06-12Google 소프트웨어 엔지니어 Paul Haahr는 Google에서 14년 이상 근무했습니다. 그 중 두 명은 Matt Cutts와 사무실을 공유했습니다. 그는 SMX West 2016 무대에서 Google 엔지니어의 관점에서 Google이 작동하는 방식을 공유하거나 최소한 30분 안에 최대한 많은 정보를 공유합니다. 그 후 웹마스터 트렌드 분석가인 Gary Illyes가 무대에 오르고 두 사람이 SMX 청중의 질문을 검색 엔진 Land Editor Danny Sullivan 중재와 함께 처리합니다(Q&A 부분으로 이동!).
Google 작동 방식
Haahr는 Google 엔지니어가 하는 일을 말하면서 시작합니다. 그들의 직업은 다음과 같습니다:
- 검색을 위한 코드 작성
- 측정항목 최적화
- 새로운 신호를 찾고 있습니다
- 새로운 방식으로 오래된 신호 결합
- 좋은 평가로 결과 이동
- 나쁜 평가로 결과 이동
- 등급 가이드라인 수정
- 필요할 때 새로운 메트릭 개발
검색 엔진의 두 부분:
- 미리(질의 전)
- 쿼리 처리
쿼리 전에
- 웹 크롤링
- 크롤링된 페이지 분석
- 링크 추출
- 렌더링 내용
- 의미론에 주석 달기
- 인덱스 구축
인덱스
- 책의 색인처럼
- 각 단어에 대해 해당 단어가 나타나는 페이지 목록
- 수백만 페이지 그룹으로 분할
- 또한 문서별 메타데이터
쿼리 처리
- 쿼리 이해 및 확장
쿼리가 알려진 엔터티의 이름을 지정합니까? - 검색 및 채점
- 모든 샤드에 쿼리 보내기
각 샤드- 일치하는 페이지를 찾습니다.
- 쿼리+페이지에 대한 점수를 계산합니다.
- 점수별로 상위 N 페이지를 다시 보냅니다.
- 모든 상위 페이지 결합
- 점수순 정렬
- 모든 샤드에 쿼리 보내기
- 검색 후 조정
- 호스트 클러스터링
- 중복있나요
득점 신호
신호는 다음과 같습니다.
- 채점에 사용되는 정보
- 쿼리 독립적 - 페이지의 기능
- 쿼리 종속
측정항목
"측정할 수 없으면 개선할 수 없습니다." - 켈빈 경
- 관련성
- 페이지가 사용자의 쿼리에 유용하게 답변합니까?
- 순위의 상위 라인 지표
- 품질
- 우리가 보여주는 결과가 얼마나 좋은지
- 결과까지의 시간(빠를수록 좋음)
Google은 실시간 실험을 통해 스스로를 측정합니다.
- 실제 트래픽에 대한 A/B 실험
- 클릭 패턴의 변화 찾기
- 많은 트래픽이 한 실험 또는 다른 실험에 있습니다.
한때 Google은 41가지 다른 블루스를 테스트하여 어떤 것이 가장 좋은지 확인했습니다.
Google은 평가자 실험도 수행합니다.
- 실제 사람 실험 검색 결과 표시
- 결과가 어떻게 되는지 물어보세요
- 평가자 전체의 평가 집계
- 평가자 기준을 설명하는 가이드라인 게시
- 도구는 Mechanical Turk와 유사한 자동화된 방식으로 이 작업을 지원합니다.
Google은 두 가지 주요 요인으로 페이지를 판단합니다.
- 요구 사항 충족(모바일이 전면 및 중앙에 있는 경우)
- 페이지 품질
충족된 등급 필요:
- 완전히 충족
- 매우 높은 충족
- 높은 만남
- 적당히 충족
- 약간 만나다
- 만나지 못함
페이지 품질 개념:
- 전문성
- 정당성
- T 녹슬지 않음
Google 엔지니어 개발 프로세스:
- 아이디어
- 준비가 될 때까지 반복
- 코드 작성
- 데이터 생성
- 실험 실행
- 분석하다
- 정량 분석가의 보고서 출시
- 리뷰 시작
- 시작하다
무슨 일이?
두 가지 종류의 문제가 있습니다.
- 체계적으로 나쁜 평가
- 측정항목은 우리가 관심을 갖고 있는 것을 포착하지 못합니다.
다음은 나쁜 평가의 예입니다. 누군가가 [텍사스 농장 비료]를 검색하고 검색 결과는 제조업체의 본사에 대한 지도를 제공합니다. 그것이 그들이 원하는 것일 가능성은 거의 없습니다. Google은 실시간 실험을 통해 이를 결정합니다. 평가자가 지도를 보고 "매우 충족됨" 요구 사항으로 평가하는 경우 이는 평가 시점에서 실패입니다.
또는 측정항목이 누락된 경우에는 어떻게 합니까? 2009~2011년에는 저품질 콘텐츠에 대한 불만이 많았습니다. 그러나 콘텐츠 팜으로 인해 관련성 지표가 계속해서 증가했습니다. 결론: Google은 필요한 측정항목을 측정하지 않았습니다. 따라서 관련성과는 별개 로 품질 메트릭이 개발되었습니다.
다음은 살펴볼 가치가 있는 Paul Haahr의 슬라이드 데크입니다.
업데이트 7/19: 이제 프레젠테이션이 작성자에 의해 비공개로 표시되었습니다.
Gary Illyes와 Paul Haahr가 SMX 청중의 질문에 답합니다.
SMX: RankBrain은 이 모든 것에 어떻게 적합합니까?
Haahr: RankBrain은 신호의 하위 집합을 확인합니다. RankBrain의 작동 방식에 대해 자세히 설명할 수 없습니다. 우리는 그것이 어떻게 작동하는지 이해하지만 그것이하는 일만큼은 아닙니다. 그것은 우리가 딥 러닝에 관해 출판한 많은 것들을 사용합니다.
RankBrain은 페이지의 권한을 어떻게 알 수 있습니까?
Haahr: 그것은 그것이 얻는 훈련의 모든 기능입니다. 쿼리 및 기타 신호를 봅니다. 나는 그것이 더 유용하다고 말할 수 없습니다.
SMX: Google 앱에 로그인할 때 수집하는 정보로 차별화합니까? Google Now와 Chrome을 사용하는 경우 표시되는 내용에 영향을 줄 수 있나요?
Haahr: 로그인 여부는 정말 문제입니다. 일관된 경험을 제공합니다. 귀하의 인터넷 사용 기록은 귀하를 따라갑니다.
Google은 하루 중 다른 시간에 동일한 쿼리에 대해 다른 결과를 제공합니까?
일리스: 잘 모르겠어. 예를 들어 지도에서 지도와 관련된 것을 표시하면 시간이 표시됩니다. Gary가 아는 한 표시되는 내용은 변경되지 않습니다.
SMX: 팬더와 펭귄에게 무슨 일이?
Illyes: 나는 펭귄에 날짜나 타임라인을 주는 것을 포기했습니다. 어떻게 런칭할지 고민하면서 작업을 하고 있는데 솔직히 날짜도 모르겠고 이미 3~4번은 틀려서 날짜를 말하기도 싫고 장사에 안좋습니다.
SMX: Post-Google Authorship, 저자 권한을 어떻게 추적하고 있습니까?
Haahr: 자세한 내용은 다루지 않겠습니다. 내가 말할 것은 평가자가 보고 있는 페이지에 대해 수동으로 검토해야 한다는 것입니다. 우리가 측정하는 것은 평가자가 좋은 권위자라고 생각하는 결과를 제공하는 데 좋은 일을 할 수 있는지입니다.
SMX: 권위가 직간접적인 요인으로 사용된다는 뜻인가요?
Haahr: 예 또는 아니오라고 말하지 않을 것입니다. 그보다 훨씬 더 복잡하고 직접적인 대답을 할 수 없습니다.
SMX: 명시적 저자권이 종료되었을 때 Google은 계속해서 작성자가 있다고 말했습니다. rel=author를 신경써야 합니까?
Illyes: 향후 개발을 위해 rel=author 태그를 사용하는 방법을 아직 검토 중인 팀이 하나 이상 있습니다. 내가 SEO라면 여전히 태그를 남길 것입니다. 가지고 있어도 나쁘지 않습니다. 그러나 새 페이지에서는 가질 가치가 없을 것입니다. 우리가 미래에 무언가를 위해 그것을 사용할 수도 있지만.
SMX: 지금 무엇을 읽고 있습니까?
Haahr: 저널리즘은 많이 읽고 책은 거의 읽지 않습니다. 그러나 저는 "City on Fire"를 막 끝냈습니다. 70년대 뉴욕에 관한 것입니다. 900페이지인데 다 끝나서 아쉬웠어요. 저는 "It Can't Happen Here"를 막 시작했습니다.