Construindo ferramentas para entender o desempenho do conteúdo

Publicados: 2020-09-03

O conteúdo é uma das principais forças que impulsionam uma estratégia de inbound marketing, e o SEO é parte integrante desse trabalho. Geralmente, isso abrange o básico do SEO na página: estrutura do artigo, posicionamento de palavras-chave, meta tags, tags de título, texto alternativo, títulos, dados estruturados e uso de formatação para criar dados estruturados informalmente em listas e tabelas.

Auditoria de SEO on-page como parte do gerenciamento de conteúdo, usando OnCrawl.

Isso se enquadra no SEO técnico quando você começa a otimizar ou monitorar em massa, seja por meio de auditorias de sites ou rastreamentos regulares, por meio de meta descrições de linguagem natural geradas por máquina, tags de controle de snippets ou injeção de dados estruturados.

No entanto, a interseção de SEO técnico e marketing de conteúdo é ainda maior no que diz respeito ao desempenho do conteúdo: analisamos os mesmos dados primários, como page rank nas SERPs ou número de cliques, impressões e sessões. Podemos implementar os mesmos tipos de soluções ou usar as mesmas ferramentas.

O que é desempenho de conteúdo?

O desempenho do conteúdo é o resultado mensurável de como o público interage com o conteúdo. Se o conteúdo está direcionando o tráfego de entrada, as medidas desse tráfego refletem o quão bem ou mal esse conteúdo está fazendo seu trabalho. Toda estratégia de conteúdo deve, com base em objetivos concretos, definir seus KPIs particulares. A maioria incluirá as seguintes métricas:

  • Quão visível o conteúdo está na pesquisa (impressões em SERPs)
  • Quão pertinente os mecanismos de pesquisa acham que o conteúdo é (classificação em SERPs)
  • Quão pertinentes os pesquisadores acham que a lista de pesquisa do conteúdo é (cliques de SERPs)
  • Quantas pessoas visualizam o conteúdo (visitas ou sessões em uma solução de análise)
  • Quantas pessoas interagem com o conteúdo de uma forma que promova os objetivos de negócios (acompanhamento de conversões)

Até agora tudo bem.

A dificuldade está em posicionar o cursor: quais números significam que você tem um bom desempenho de conteúdo? O que é normal? E como você sabe quando algo não está indo bem?

Abaixo, compartilharei meu experimento para construir uma “prova de conceito” de uma ferramenta de baixa tecnologia para ajudar a responder a essas perguntas.

Por que exigir um padrão para desempenho de conteúdo?

Aqui estão algumas das perguntas que eu queria responder como parte da minha própria revisão da estratégia de conteúdo:

  • Existe uma diferença entre conteúdo interno e guest posts em termos de desempenho?
  • Existem assuntos que estamos pressionando que não têm um bom desempenho?
  • Como posso identificar posts “evergreen” sem esperar três anos para ver se eles ainda estão atraindo tráfego semanal?
  • Como posso identificar pequenos impulsos de promoção de terceiros, como quando uma postagem é selecionada em um boletim informativo que não estava em nosso radar de promoção, para adaptar imediatamente nossa própria estratégia de promoção e capitalizar o aumento da visibilidade?

No entanto, para responder a qualquer uma dessas perguntas, você precisa saber como é o desempenho "normal" do conteúdo no site com o qual está trabalhando. Sem essa linha de base, é impossível dizer quantitativamente se uma parte específica ou tipo de conteúdo tem um bom desempenho (melhor que a linha de base) ou não.

A maneira mais fácil de definir uma linha de base é observar a média de sessões por dia após a publicação, por artigo, em que o dia zero é a data de publicação.

Isso produzirá uma curva parecida com esta, mostrando um pico de interesse inicial (e possivelmente os resultados de qualquer promoção que você fizer, se você não tiver limitado sua análise apenas a sessões de mecanismos de pesquisa), seguido por uma longa cauda de juros mais baixos:

Dados reais para um post típico: um pico na data de publicação ou logo após, seguido por uma cauda longa que, em muitos casos, acaba trazendo mais sessões do que o pico original.

Depois de saber como é a curva de cada post, você pode comparar cada curva com as outras e estabelecer o que é “normal” e o que não é.

Se você não tem uma ferramenta para fazer isso, isso é uma dor no pescoço.

Quando iniciei este projeto, meu objetivo era usar o Planilhas Google para construir uma prova de conceito – antes de me comprometer a aprender Python suficiente para mudar a forma como examino o desempenho do conteúdo.

Vamos dividir o processo em fases e etapas:

  1. Encontre sua linha de base
    – Liste o conteúdo que deseja estudar
    – Descubra quantas sessões cada parte do conteúdo recebeu em cada dia
    – Substituir a data na lista de sessões pelo número de dias desde a publicação
    – Calcular a curva “normal” para usar como linha de base
  2. Identifique o conteúdo que não se parece com a linha de base
  3. Mantenha-o atualizado

Encontre sua linha de base de desempenho de conteúdo

Liste o conteúdo que deseja estudar

Para começar, você precisa estabelecer uma lista do conteúdo que deseja examinar. Para cada conteúdo, você precisará do URL e da data de publicação.

Você pode obter essa lista como quiser, quer você a construa manualmente ou use um método automatizado.

Usei um Apps Script para extrair cada URL de conteúdo e sua data de publicação diretamente do CMS (neste caso, WordPress) usando a API e escrevi os resultados em uma planilha do Google. Se você não se sente à vontade com scripts ou APIs, isso ainda é relativamente fácil; você pode encontrar vários exemplos online de como fazer isso para o WordPress.

Lembre-se de que você vai querer comparar esses dados com os dados da sessão para cada postagem, portanto, você precisará certificar-se de que o “slug” nesta planilha corresponda ao formato do caminho de URL fornecido pela sua solução de análise.

Acho mais fácil construir o slug completo (caminho do URL) aqui, na coluna E acima, em vez de modificar os dados extraídos do Google Analytics. Também é menos computacionalmente pesado: há menos linhas nesta lista!

Fórmula de exemplo para criar um URL completo para este site: procure o número da categoria fornecido pelo CMS em uma tabela e retorne o nome da categoria, que é colocado antes do slug do artigo, correspondendo ao padrão de URL para este site (https://site .com/categoryName/articleSlug/)

Se você não tiver acesso ao back-end, poderá criar sua lista extraindo essas informações do próprio site, por exemplo, durante um rastreamento. Você pode exportar um CSV dos dados desejados e importá-lo para uma planilha do Google.

Configurando um campo de dados no OnCrawl para extrair datas de publicação do blog de um site.

Dados, incluindo URL e data de publicação raspada, no Data Explorer do OnCrawl, prontos para exportação.

Descubra quantas sessões por dia cada conteúdo ganhou

Em seguida, você precisa de uma lista de sessões por conteúdo e por dia. Em outras palavras, se um conteúdo tem 30 dias e recebeu visitas todos os dias durante esse período, você deseja ter 30 linhas para ele – e assim por diante para o restante do seu conteúdo.

Você precisará de uma folha separada no mesmo documento para isso.

O complemento do Google Analytics para o Planilhas Google torna isso relativamente fácil.

Na visualização do Google Analytics com os dados desejados, você pode solicitar um relatório de:

datas Métricas Dimensões
De 1000 dias atrás
Até ontem. Os dados de hoje ainda não estão completos porque o dia ainda não acabou. Se você incluí-lo, não parecerá um dia completo “normal” e reduzirá todas as suas estatísticas.
Sessões

Estamos interessados ​​no número de sessões.

Páginas de destino
Isso lista as sessões para cada página de destino separadamente.Data
Isso lista as sessões para cada data separadamente, em vez de nos dar um total de 1.000 dias.

O uso de segmentos de seus dados do Google Analytics é extremamente útil nesta fase. Você pode, por exemplo, limitar seu relatório a um segmento contendo apenas os URLs de conteúdo que você está interessado em analisar, em vez de todo o site. Isso reduz significativamente o número de linhas no relatório resultante e simplifica muito o trabalho com os dados no Planilhas Google.

Além disso, se você pretende olhar apenas o desempenho orgânico para fins estritamente de SEO, seu segmento deve excluir canais de aquisição que não podem ser atribuídos ao trabalho de SEO: referências, e-mail, redes sociais…

Não se esqueça de certificar-se de que o limite é suficientemente alto para que você não trunque seus dados por engano.

Calcular o número de dias desde a publicação

Para calcular o número de dias desde a publicação de cada ponto de dados no artigo, precisamos juntar (ou, se você for um usuário do Data Studio, “combinar”) os dados das sessões reportam aos dados em sua lista de partes de conteúdo .

Para fazer isso, use o URL ou o caminho do URL como chave. Isso significa que o caminho do URL precisa ser formatado da mesma maneira na tabela CMS e no relatório do Google Analytics.

Criei uma tabela separada para que eu pudesse remover todos os parâmetros da página de destino no meu relatório do Analytics. Veja como configuro minhas colunas:

  • Página de destino
    Parâmetros de limpeza do slug de URL no relatório do Google Analytics
    Fórmula de exemplo:

  • Encontro
    Data em que as sessões foram registradas, do relatório do Analytics
    Fórmula de exemplo:

  • Sessões
    Data em que as sessões foram registradas, do relatório do Analytics
    Fórmula de exemplo:

  • Dias após a publicação
    Procura a data de publicação desta URL na coluna da tabela CSM que acabamos de criar e a subtrai da data em que essas sessões foram gravadas. Se a URL não puder ser encontrada na tabela CMS, relatará uma string vazia em vez de um erro.
    Fórmula de exemplo:

Observe que minha chave de pesquisa – o caminho completo do URL – não é a coluna mais à esquerda em meus dados; Eu tive que mudar a coluna E antes da coluna C para fins de PROCV.

Se você tiver muitas linhas para preencher manualmente, poderá usar um script como o abaixo para copiar o conteúdo da primeira linha e preencher as próximas 3450 ou mais:

 function Preencher() {
    var planilha = SpreadsheetApp.getActive();
    planilha.getRange('F2').activate();
    planilha.getActiveRange().autoFill(planilha.getRange('F2:F3450), SpreadsheetApp.AutoFillSeries.DEFAULT_SERIES);
};

Calcular o número “normal” de sessões por dia após a publicação

Para calcular os números de sessão normais, usei uma tabela dinâmica bastante simples, emparelhada com um gráfico. Para simplificar, comecei analisando o número médio de sessões por dia após a publicação.

Aqui está a média versus a mediana das sessões nos 1.000 dias após a publicação. Aqui começamos (?) a ver os limites do Google Sheets como um projeto de visualização de dados:

Este é um site B2B com picos de sessão durante a semana em todo o site; publica artigos algumas vezes por semana, mas sempre nos mesmos dias. Você quase pode ver os padrões semanais.

Nesse caso, para fins de visualização, provavelmente seria melhor observar as médias de 7 dias rolantes, mas aqui está uma versão rápida que apenas suaviza por semanas desde a publicação:

Apesar dessa visão de longo prazo, nas próximas etapas limitarei o gráfico a 90 dias após a publicação para ficar dentro dos limites do Planilhas Google posteriormente:

A procura de anomalias

Agora que sabemos qual é a aparência da postagem média em um determinado dia, podemos comparar qualquer postagem com a linha de base para descobrir se está com desempenho superior ou inferior.

Isso fica rapidamente fora de controle se você estiver fazendo isso manualmente. Trocadilhos à parte, vamos pelo menos tentar automatizar um pouco disso.

Cada postagem (com menos de 90 dias) precisa ser comparada à linha de base que acabamos de estabelecer para cada dia em nossa janela de 90 dias.

Para esta prova de conceito, calculei a diferença percentual da média diária.

Para uma análise rigorosa, você deve observar o desvio padrão das sessões por dia e estabelecer quantos desvios padrão o desempenho do conteúdo individual está em relação à linha de base. Uma contagem de sessões com três desvios padrão do desempenho médio é mais provável de ser uma anomalia do que algo que difere da média daquele dia em mais de X%.

Usei uma tabela dinâmica para selecionar todo conteúdo (com sessões nos últimos 90 dias) que tenha pelo menos um dia de anomalias durante esse período:

No Planilhas Google, as tabelas dinâmicas não podem criar mais de 100 colunas. Daí a limitação de 90 dias para esta análise.

Eu mapeei esta tabela. (Idealmente, eu gostaria de traçar toda a curva de 90 dias para cada um desses artigos, mas também gostaria que a folha respondesse se eu clicar em uma curva.)

Mantendo as coisas atualizadas: automatizando atualizações

Há três elementos principais aqui:

  1. A linha de base
  2. As partes do conteúdo que você deseja acompanhar
  3. O desempenho dessas peças de conteúdo

Infelizmente, nenhum deles é estático.

Teoricamente falando, o desempenho médio evoluirá à medida que você melhorar a segmentação e a promoção do seu conteúdo. Isso significa que você precisará recalcular a linha de base de vez em quando.

E se o seu site tiver altos e baixos sazonais, pode valer a pena analisar as médias em períodos mais curtos ou no mesmo período todos os anos, em vez de criar uma fusão como fizemos aqui.

À medida que você publica mais conteúdo, também deseja acompanhar o novo conteúdo.

E quando queremos olhar a data da sessão para a próxima semana, não a teremos.

Em outras palavras, esse modelo precisa ser atualizado com mais ou menos frequência. Existem várias maneiras de automatizar as atualizações, em vez de reconstruir toda a ferramenta do zero toda vez que você estiver interessado em dar uma olhada.

O mais fácil de implementar provavelmente é agendar uma atualização semanal das sessões de análise e puxar novas postagens (com suas datas de publicação) ao mesmo tempo.

O relatório do Google Analytics que usamos pode ser facilmente programado para ser executado automaticamente em intervalos regulares. A desvantagem é que ele substitui relatórios anteriores. Se você não quiser executar e gerenciar o relatório completo, poderá limitá-lo a um período mais curto.

Para meus propósitos, descobri que olhar para uma janela de 7 dias me dá informações suficientes para trabalhar sem estar muito desatualizado.

Ficar de olho nas postagens sempre verdes fora da janela de 90 dias

Usando os dados que geramos anteriormente, digamos que foi possível determinar que a maioria das postagens tem uma média de cerca de 50 sessões por semana.

Portanto, faz sentido ficar de olho em qualquer postagem cujas sessões semanais sejam superiores a 50, independentemente da data de publicação:

Os artigos são coloridos por período de publicação: últimos 90 dias (azul), ano passado (laranja) e legado (cinza). Os totais semanais são codificados por cores, comparando-os com a meta da sessão de 50.

Dividir o total de sessões por dia na semana facilita a diferenciação rápida entre postagens perenes com desempenho bastante consistente versus atividades orientadas a eventos com desempenho desigual:

Conteúdo perene (desempenho consistente de ± 20/dia)

Provável promoção externa (baixo desempenho geral fora de um pico de curto prazo)

O que você faz com essas informações dependerá da sua estratégia de conteúdo. Você pode pensar em como essas postagens convertem leads em seu site ou compará-los com seu perfil de backlinks.

Limitações do Planilhas Google para análise de conteúdo

O Planilhas Google, como você já deve ter notado, é uma ferramenta extremamente poderosa, mas limitada, para esse tipo de análise. Essas limitações são o motivo pelo qual preferi não compartilhar um modelo com você: adaptá-lo ao seu caso daria muito trabalho – mas os resultados que você pode obter ainda são apenas aproximações pintadas com traços largos.

Aqui estão alguns dos principais pontos em que esse modelo não entrega:

  • Existem muitas fórmulas.
    Se você tiver muitos (digamos, milhares) de URLs de conteúdo ativo, pode ser extremamente lento. Em meus scripts de atualização semanal, substituo muitas das fórmulas por seus valores assim que são calculados para que o arquivo realmente responda quando eu o abro posteriormente para análise.
  • Linha de base estática.
    À medida que o desempenho do meu conteúdo melhora, tenho mais partes de conteúdo com “desempenho superior”. A linha de base precisa ser recalculada a cada poucos meses para levar em conta a evolução. Isso seria facilmente resolvido usando um modelo de aprendizado de máquina não supervisionado para calcular médias (ou até mesmo pular esta etapa e identificar anomalias diretamente).
  • Uma linha de base “imprecisa”.
    A linha de base não leva em conta as mudanças sazonais ou incidentes em todo o site. Também é muito sensível a eventos extremos, principalmente se você limitar seu cálculo a um período de tempo mais curto:

Análise estatisticamente inválida.
Especialmente se você não tiver muitas sessões por dia por item de conteúdo, alegar que uma diferença de 10% em relação à média constitui um desempenho incomum é um pouco superficial.

Limite arbitrário de 90 dias de análise.
Qualquer limite arbitrário é um problema. Nesse caso, isso me impede de entender o desempenho do conteúdo permanente e me deixa cego para quaisquer picos de desempenho, embora eu saiba pelo Google Analytics que peças muito antigas ocasionalmente recebem um pico repentino de atenção ou que alguns artigos ganham atenção constantemente à medida que eles envelhecem. Isso não é visível na ferramenta, mas é se você traçar sua curva:

  • Problemas de comprimento de folha.
    Algumas das minhas fórmulas e scripts requerem um intervalo de células. À medida que o site e as linhas do relatório de sessões crescem, esses intervalos precisam ser atualizados. (Mas eles não podem exceder o número de linhas presentes na planilha, ou algumas delas criam erros.)
  • Incapacidade de representar graficamente curvas completas para cada parte do conteúdo.
    Vamos, quero ver tudo!
  • Interatividade limitada com os resultados gráficos.
    Se você já tentou escolher um ponto (ou curva) em um gráfico de várias curvas no Planilhas Google, sabe do que estou falando. Isso é ainda pior quando você tem mais de vinte curvas no mesmo gráfico e as cores começam todas com a mesma aparência.
  • Possibilidade de ignorar conteúdo de baixo desempenho sem sessões.
    Usando o método que apresentei aqui, é difícil identificar o conteúdo que consistentemente não tem sessões. Como ele nunca aparece no relatório do Google Analytics, ele não é selecionado no restante do fluxo de trabalho (ainda). O conteúdo que não apresenta desempenho consistente traz pouco valor, portanto, a menos que você esteja procurando páginas para remover, o conteúdo sem desempenho provavelmente não tem lugar em um relatório de desempenho.
  • Incapacidade de se adaptar à análise em tempo real.
    Embora não seja particularmente trabalhoso executar novamente os scripts de relatório, média e pós-atualização, essas ainda são ações manuais fora da atualização programada semanal. Se a atualização semanal for na quarta-feira e você me perguntar na terça como estão as coisas, não posso simplesmente consultar a planilha.
  • Limitações na expansão.
    Adicionar um eixo de análise – como classificação ou rastreamento de palavras-chave, ou até mesmo opções de filtro por região geográfica – a esse relatório seria oneroso. Isso não apenas exacerbaria alguns dos problemas existentes, mas também seria extremamente difícil implementar uma visualização legível e acionável.

A conclusão?

A execução dos mesmos tipos de cálculos em um ambiente programático ou de aprendizado de máquina resolveria quase todos esses problemas. Essa seria uma maneira muito melhor de executar operações semicomplexas em um grande conjunto de dados. Além disso, existem excelentes bibliotecas que usam aprendizado de máquina para detectar anomalias de forma confiável com base em um determinado conjunto de dados; existem ferramentas melhores para visualização de dados.

Pontos de desempenho de conteúdo

A análise de desempenho de conteúdo, mesmo com métodos primitivos e falhos, reforça o alerta e a tomada de decisão orientada por dados na estratégia de conteúdo.

Concretamente, entender o desempenho do conteúdo é o que permite:

  • Entenda o valor das promoções iniciais versus a atividade de cauda longa
  • Identifique postagens com baixo desempenho rapidamente
  • Capitalize em atividades de promoção externas para aumentar o alcance
  • Reconheça facilmente o que torna certas postagens tão bem-sucedidas
  • Identifique certos autores ou certos tópicos que consistentemente superam outros
  • Determine quando o SEO começa a ter impacto nas sessões

Esses dados que impulsionam decisões informadas para promover conteúdo – e quando e como –, escolhas de assunto, perfil de público e muito mais.

Por fim, experimentos como este mostram que qualquer domínio para o qual você pode obter dados tem um uso potencial para habilidades de codificação, script e aprendizado de máquina. Mas você não precisa renunciar a fazer suas próprias ferramentas se não tiver todas essas habilidades.

Inicie o seu teste gratuito