Google desvaloriza páginas de baixa qualidade

Entenda o significado da atualização do Google, conhecida como Panda, e como ela pode alterar o número de visitas que os sites recebem vindas do buscador.

Manuel Lemos @ WebInsider

O Google e a indústria dos resultados das buscas

Todos sabem que o Google é líder no mercado de buscas na Web. Essa foi uma posição que conquistou desde cedo oferecendo uma melhor experiência de uso e resultados mais relevantes para os seus usuários.

A grande audiência que o Google atrai tornou-se importante também para todo tipo de sites que podem se beneficiar de grandes quantidades de visitantes que chegam pelas buscas do Google, sem que precisem fazer grandes investimentos de marketing.

Quanto mais visitantes os sites receberem trazidos das buscas, melhor. Mais visitantes muitas vezes significa mais receita gerada pelos sites, seja em forma de publicidade, produtos vendidos, ou qualquer outra forma de rentabilização. Para isso é necessário que as páginas dos sites estejam bem classificadas nos resultados das buscas.

A partir do momento que os editores dos sites ganham consciência desta realidade, o esforço para terem os seus sites bem classificados no Google torna-se uma preocupação permanente.

A ciência do SEO, ou Search Engine Optimization

Search Engine Optimization  (SEO) é o nome em inglês usado para designar este esforço de maximizar o número de visitantes que os sites recebem, não apenas do Google, mas também de outros sites de busca.

Esta atividade tornou-se tão importante e requer um conhecimento de tal forma especializado, que hoje em dia existem inúmeras empresas com profissionais especializados em SEO, prontas para atender sites de quem não tem o conhecimento necessário para otimizar os seus próprios sites.

Nos primórdios, o Google usava o algoritmo chamado de Page Rank para classificar as páginas e determinar quais apareciam primeiro quandos os usuários buscavam por determinadas palavras. Este algoritmo considerava o peso dos links que apontavam para uma página e também dos links que essa página contém.

Práticas de SEO banidas – Black Hat

Depois de ter entendido essa premissa do algoritmo do Page Rank, não faltaram editores de sites e profissionais de SEO que buscavam formas de plantar links noutros sites, só para conseguir que suas páginas apareçam melhor classificadas nos resultados do Google.

Essa prática começou a desvirtuar a qualidade dos resultados do Google porque permitia que páginas menos relevantes aparecessem primeiro que outras páginas que tinham mais a ver com o que os usuários estavam buscando. Ou seja, os resultados das buscas começavam a ser estragados por páginas consideradas como spam.

A partir do momento que o Google se apercebeu disso, passou a publicar regras que os editores de sites deveriam cumprir para terem as suas páginas listadas no Google. Em suma essas regras ditavam que certas práticas, conhecidas como Black Hat, são banidas e os sites que forem apanhados a descumpri-las podem ser punidos de forma a perderem as visitas que até então estavam recebendo das buscas no Google.

Ao longo do tempo o Google foi melhorando os seus algoritmos para pegar e punir sites que empregam técnicas proibidas. Mas essa é uma corrida de gato e rato. Se alguns sites são pegos através de novas abordagens de detecção adotadas pelo Google, rapidamente outros sites se adaptam para não serem apanhados.

O Google chegou a pedir que os seus usuários façam denúncias para que eles descubram as novas tácticas de editores de sites e profissionais que empregam abordagens maliciosas.

Em alguns casos o Google pune os sites descobertos. Noutros, apenas adapta os seus algoritmos para que os casos denunciados seja pegos automaticamente pelo sistema sem precisar de punição manual aplicada por um responsável do Google.

Páginas de baixa qualidade – fazendas de conteúdo

Um problema que o Google até aqui ainda não tinha conseguido combater é o das páginas de baixa qualidade. Antes de mais nada, importa esclarecer o que é baixa qualidade. É simples de descrever, mas difícil de detectar sem intervenção humana. Quando um usuário vai a uma página que apareceu nos resultados de busca do Google e descobre que a página não é útil, para esse usuário a página não tem qualidade.

Um tipo de página de baixa qualidade que ao longo dos anos começou a surgir, e em alguns casos a dominar a busca do Google, são as páginas produzidas pelas chamadas fazendas de conteúdo (content farms). Esse é o nome usado para denominar sites criados deliberadamente para atrair elevado número de visitantes vindos das buscas do Google.

Trata-se de páginas criadas de forma sintética por pessoas, por vezes sem qualificação, a quem foi encomendado que escrevam artigos, frequentemente de valor duvidoso, mas que contém certas palavras escolhidas a dedo por serem palavras que são muito buscadas no Google.

O problema é que essas páginas muitas vezes não têm conteúdo de valor para os usuários, apesar de conterem as palavras usadas na busca do Google. Por vezes são páginas feitas por pessoas que foram pagas para escrever algo com essas palavras, pessoas que nem sequer são do ramo dos assuntos sobre o qual estão a escrever. Em alguns casos são artigos publicados sem qualquer moderação por alguém que pondere sobre a utilidade do que foi escrito.

Existem alguns sites que foram criados deliberadamente para criar páginas desta forma. Por isso foram chamados de fazendas de conteúdo.

Este problema começou-se a agravar nos últimos anos, não apenas porque os usuários que eram levados até a essas fazendas de conteúdo pelo Google não viam utilidade nessas páginas, mas também porque outros sites com páginas escritas realmente por pessoas que entendiam dos assuntos começaram a perder audiência e também receita que os seus editores precisavam para os sustentar.

A atualização Panda

Recentemente, mais especificamente no dia 24 de fevereiro, o Google lançou uma atualização nos critérios de ordenação de resultados de buscas que tem em vista atacar o problema das páginas de baixa qualidade.

Por enquanto esta atualização apenas afeta os resultados para quem está nos Estados Unidos e faz buscas no Google.com. Quer dizer que por agora quem estiver no Brasil, Portugal, ou qualquer outro país tirando os Estados Unidos, ainda não vai ver nenhuma diferença.

No entanto, o Google está testando esta atualização para fazer eventuais ajustes, o que pode demorar pouco tempo a concluir. Pelo que pode ser uma questão de dias, ou semanas no máximo, até que esta atualização seja propagada para todo resto do mundo.

Por isso, se você é um editor ou um profissional de SEO, é muito importante saber como funciona esta atualização e o que você pode fazer para não afetar os seus sites.

Mas afinal como funciona a atualização Panda?

O Google nunca revela exatamente como funciona cada atualização. O motivo prende-se com o fato de não querer ajudar pessoas com intenções maliciosas a inventar novas tácticas para burlar os métodos de deteção e classificação de páginas que possam ser prejudicadas com as alterações de classificação de resultados. Porém não falta quem se proponha a explicar como funciona.

Eu próprio fui analisar as estatísticas das visitas vindas do Google aos meus sites estes dias para ver se tinham sido afetados por esta atualização.

A princípio fiquei surpreendido que tinham caido 10% entre a semana anterior e a seguinte ao dia 24. Fiquei chateado porque nos meus sites não existem páginas criadas de forma sintética só para atrair visitantes do Google. Aliás, os meus sites são de conteúdo contribuido pelos usuários. Mas cada contribuição é moderada. Isto significa que eu mesmo revejo e descrevo todo conteúdo antes de ser publicado.

No caso são sites de componentes de programação. Todos os dias eu gasto entre 1 a 2 horas para analisar o código dos componentes contribuídos. Eu mesmo escrevo uma descrição sobre o que os componentes fazem e para que servem.

Se eu não fizesse isto e deixasse para os autores do código contribuído descreverem, resultaria em algo bem inútil, dado que muitos autores não sabem escrever em inglês ou então dispersam-se a falar como o seu código é maravilhoso sem explicar exatamente o que faz. Resumindo, de fato o conteúdo publicado é curado e algum que não satisfaz certos critérios é rejeitado.

Então por que os meus sites perderam 10% das visitas vindas do Google? Decidi gastar um pouco de tempo e analisar as estatísticas antes e depois da data da atualização Panda. Fui no site WebmasterTools, baixei arquivos com as estatísticas das palavras que levaram usuários aos meus sites. Fiz um script para comparar e determinar quais as palavras de buscas que perderam mais visitantes.

Os resultados da análise foram reveladores. De fato a esmagadora maioria das palavras que perderam mais visitantes apontavam para páginas que talvez não fossem úteis a pessoas que não são usuários típicos dos meus sites.

Vou dar dois exemplos meramente ilustrativos. Um deles era sobre as palavras Djibouti authors. Djibouti é um pequeno país pouco conhecido. No meu site tenho páginas que listam os contribuidores de cada país do mundo. No caso, o meu site não tem contribuidores de Djibouti. Mas a página existe só para dizer isso.

Penso que já dá para entender porque este página não é útil para quem faz buscas no Google. Quem vai buscar no Google, dificilmente quer saber quem são os autores que contribuem nos meus sites, não apenas do Djibouti, mas de qualquer país. Tendo em conta que eu tenho mais de 200 páginas assim, uma para cada país, dá para entender que a eventual perda de visitantes de todas essas páginas somadas, começa a ser significativa.

Um outro exemplo era com buscas com a palavra mycantos. Nunca tinha ouvido falar que essa palavra pudesse suscitar tantas buscas no Google. Fui-me informar melhor. MyCantos é um serviço gratuito para envio de mensagens SMS na India.

Há dois anos um contribuidor indiano enviou um componente de programação para enviar mensagens SMS através do MyCantos usando um script em PHP. Acredito que muitos usuários que eram levados à página desse componente nem sequer eram programadores. Chegando na página devem ter visto que não era bem o que eles pensavam.

Mas como o Google consegue detectar páginas de baixa qualidade?

A resposta mais sincera, é que ninguém sabe, tirando os funcionários do Google, claro. Pelo que só nos resta dar alguns palpites baseados em pressupostos razoáveis. Vou tentar.

Como mencionei acima, páginas de baixa qualidade são páginas que não são úteis aos usuários que as visitam. Se não são úteis, o que fazem os usuários quando são levados as essas páginas pelo Google? Normalmente voltam atrás e tentam outro resultado.

Então parece-me plausível pressupor que o Google tenha desenvolvido um método de contabilizar quantas vezes os usuários que são levados a uma dada páginas dos resultados, voltam rapidamente à página de resultados e clicam noutro resultado.

Uma página que é apenas visitada uma vez e logo usuário volta, é uma página com alta taxa de rejeição (bounce rate). Se o Google considerar a taxa de rejeição das páginas e diminuir a classificação dessas páginas para as palavras buscadas, as páginas ditas de baixa qualidade começam a deixar de receber visitas vindas das buscas do Google.

Mesmo sem ter a certeza se realmente é isso que o Google faz, a solução para o problema precisaria ser bastante engenhosa, dado que requer uma elevada capacidade de processamento de dados. O Google precisaria manter um banco de dados muito volumoso de estatísticas de cada palavra de busca, cada página visitada, tempo que o usuário demorou para voltar à página de buscas. Depois precisaria de processar todos esses dados em tempo útil para reconsiderar a classificação de páginas de resultados das busca.

Talvez não por coincidência um engenheiro do Google chamado Biswanath Panda, junto com outros engenheiros do Google, publicou um estudo sobre uma técnica chamada PLANET, que foi apresentado em 2009 precisamente numa conferência sobre processamentos de grandes bases de dados.

O Google decidiu designar esta atualização de Panda precisamente em homenagem a um grande avanço (breakthrough) introduzido por um engenheiro com esse nome. Consta que o trabalho de Panda já tinha sido usado para processamento de dados de cliques em anúncios do AdWords para determinar se as páginas de destino dos cliques são eficientes. Agora parece natural que o trabalho de Panda esteja sendo usado para processar a grande quantidade de dados que permite avaliar a taxa de rejeição das páginas que aparecem nos resultados de busca.

Se é válida esta teoria de que o Google está avaliando a taxa de rejeição das páginas para reconsiderar a sua classificação nos resultados de busca, então deveríamos estar observando uma redução na taxa de rejeição de cada site considerando todas as palavras de busca que lhes levam visitantes do Google.

Fui avaliar a minha taxa de rejeição nos períodos de antes e depois da atualização, e Bingo! Nas buscas feitas apenas por usuários dos Estados Unidos a taxa de rejeição caiu muito a partir do dia 24. Nos restantes países ficou mais ou menos na mesma.

Pronto, acho que matei a charada! Se não for esta a explicação correta de como funciona o Panda, é com certeza algo que tem muito a ver.

O que fazer para se preparar para aplicação da atualização Panda em todo o mundo?

Esta atualização vai levar que a maior parte dos sites perca visitantes de algumas buscas, mas também podem ganhar noutras. Então não vai ser necessariamente mau para todos. Cada caso é um caso. O que você precisa é avaliar o seu caso para saber se precisa de agir de alguma forma.

Primeiramente você precisa ter algumas métricas para poder avaliar se tem o que fazer ou não. Para isso a principal recomendação é que você tenha todos seus sites inscritos no Google Analytics e no Webmaster Tools. Esses sites fornecem todas métricas que precisa de graça.

Uma das métricas que importa avaliar é a taxa de rejeição (bounce rate) das suas páginas. Se os seus sites têm uma taxa de rejeição baixa, quase de certeza não tem o que se preocupar. Se você tem muitas páginas com taxa de rejeição alta em relação a visitas vindas do Google, precisa identificar quais são essas páginas, que palavras de busca estão levando a uma maior rejeição, e tentar melhorar o conteúdo dessas páginas para satisfazer melhor os usuários que estão buscando por essas palavras.

No entanto gostaria de fazer uma ressalva. O Google Analytics tende a dar valores de taxa de rejeição muito mais elevados do que a rejeição real. O que se passa é que o Google Analytics considera que o usuário rejeitou uma página no seu site se depois de visitar essa página o usuário não visitou mais nenhuma.

Acontece que se você tem uma página interessante, o usuário pode ficar lendo tudo que tem nela durante muito tempo e simplesmente sair. Isso não é uma rejeição. A rejeição real que importa cuidar é a de usuários que voltam para página de busca para ver outros resultados das mesmas palavras.

Claro que se você conseguir baixar a rejeição real, vai conseguir baixar também a rejeição medida pelo Google Analytics. Então os valores informados pelo Google Analytics servem apenas como referência para avaliar se melhorou ou piorou se fizer mudanças no seu conteúdo.

Outra coisa, alguns editores de sites e profissionais de SEO recomendam que você inclua links e outros atrativos para manter os usuários nos sites depois que eles visitam as páginas de chegada. Isso pode ajudar, mas não implica que o usuário insatisfeito não acabe voltando à busca e portanto a rejeição acabe acontecendo.

Recomendações para minimizar a rejeição das páginas de sites

Algumas das seguintes recomendações foram apresentadas em uma palestra que dei recentemente em Portugal sobre o Negócio dos Sites de Conteúdo Contribuído pelo Usuário. Estou usando o sotaque do português de Portugal, mas espero que dê para os brasileiros entenderem (sem legendas). Os slides da palestra também estão disponíveis em formato de SlideCast permitindo escutar a palestra enquanto vê os slides.

  • Preste atenção às reclamações

    Um sintoma de que algo está errado nos seus sites é quando os usuários reclamam muito sobre a mesma coisa. Uma reclamação aqui ou ali é normal. Agora muitas reclamações sobre o mesmo problema é algo que pode precisar de uma intervenção específica.

    Infelizmente nem sempre todos usuários que reclamam se dão ao trabalho de escrever para o seu site sobre isso. É algo tão chato que desistem.

    Por outro lado, se tem algum lugar que muitos usuários usam para desabafar e reclamar de coisas que eles lamentam é no Twitter. Parece que no Twitter é o lugar que os usuários ficam à vontade para “pensar em voz alta” e expressar descontentamento sobre outros, que noutro lugar não teriam coragem de o fazer.

    A parte mais útil do Twitter é que você pode vigiar tudo que é dito porque os comentários normalmente são públicos. Então se você precisa saber o que estão falando de bom ou de mal sobre os seus sites no Twitter, basta fazer uma busca pelo nome dos sites.

    Mas não precisa ficar o dia inteiro de plantão fazendo essa busca no Twitter. Cada busca no Twitter tem o feed RSS associado. Se você assinar esse feed RSS com um programa de leitura de feeds tipo iGoogle, Mozilla Thunderbird, etc.. você consegue acompanhar tudo que estão falando sobre seus sites, gastando pouco tempo por dia olhando os feeds.

    Portanto se você quer assinar o feed RSS (Atom) da busca do Twitter sobre por exemplo webinsider, assine este URL:

    http://search.twitter.com/search.atom?q=webinsider

    Para empresas conhecidas, há quem use muito sites como o ReclameAqui para desabafar. Mas normalmente esses desabafos já são sobre situações mais graves relacionadas com produtos dessas empresas, não tanto com sites. Mas não é má ideia ficar de olho nesses sites porque não se sabe quando os seus usuários se podem dar ao trabalho de contestar os seus sites.

    Em qualquer dos casos o que importa é verificar se os usuários estão reclamando de algo recorrente sobre os seus sites, mais do que você ficar meramente tentando abafar cada situação que está sendo reclamada.

  • Minimize o tempo de carga das páginas

    Usuários sem paciência desistem das suas páginas. Veja quanto tempo as suas páginas demoram a carregar. Se demorar muito, tipo mais de 10 segundos para o conteúdo relevante começar a aparecer, o seu problema é grave. O site Webmaster Tools também mostra a velocidade de carga das páginas do seu site.

    Veja o que pode estar atrasando a carga das suas páginas. Sobre isto daria um artigo inteiro para falar. Mas resumidamente, veja se tem conteúdos de grande tamanho para baixar, como imagens pesadas ou scripts externos atrasando a carga das suas páginas.

    Um dos tipos de conteúdo que mais atrasa a carga das páginas é publicidade. Ironicamente muitos sites usam publicidade do Google AdSense para gerarem receita. Porém demasiada publicidade pode tornar o site demasiado lento, e assim aumentar a sua rejeição, e você perde visitantes por isso. Mas se você precisa da receita da publicidade para sustentar os seus sites. O que fazer?

    Uma das reclamações recorrentes que eu notei muito no Twitter era de usuários reclamando da lentidão da carga das páginas. Mas os meus sites não são lentos. Estão em servidor dedicado e as páginas são servidas de forma altamente otimizada.

    O problema não estava nos meus sites, mas sim na publicidade que é carregada de outros servidores, como as do Google AdSense, que atrasam a carga das páginas em cada ponto onde a publicidade é inserida.

    Depois de muito deliberar no assunto cheguei a uma solução que consiste em atrasar o carregamento da publicidade e outros elementos externos, como botões do Twitter e Facebook, de modo que esses elementos apenas carregam quando toda página estiver carregada.

    A solução para isso foi desenvolver um componente de JavaScript que faz aparecer a publicidade e outros elementos de forma retardada. Essa solução foi quase milagrosa. Desde que foi implementada deixei de ver usuários reclamando no Twitter sobre a lentidão de carga nas páginas. Curiosamente não notei perda de receita de publicidade com a mudança, ao contrário do que eu temia.

    Esse componente de JavaScript chama-se Fast Page Content Loader e foi disponibilizado de forma gratuita no site JSClasses. Para quem se interessar em experimentar, tem aqui dois artigos interessantes no blog desse componente, um sobre como acelerar a carga de páginas e outro sobre como dar prioridade à carga de certos elementos das páginas.

  • Use um design credível

    É antigo o ditado que diz que a primeira impressão é a que fica. Se o seu site tem um ar descuidado ou com aparência antiquada, isso vai se refletir na vontade das pessoas de explorá-lo. Um design que não inspira credibilidade pode influênciar muito na sua rejeição.

    Eu não sou designer, sou desenvolvedor. Mas isto é uma questão de bom senso. Durante muitos anos recebi reclamações de muitos usuários que achavam o design do site PHPClasses antiquado porque pouco ou nada foi mudado ao longo dos tempos. Essa era um dos tipos de reclamação que recebia muito pelo Twitter ou por e-mail.

    Desde 2002 eu queria que os usuários pudessem eles mesmos mudar o design do site ou mesmo propôr novos temas de designs que outros possam usar. Porém era preciso desenvolver um sistema que permitisse os usuários trocarem o design, sem poder introduzir código malicioso em JavaScript. Ao mesmo tempo queria que se fosse para trocar, teria de ser algo aprovado pela maioria dos usuários que se importam com questões de design.

    Era necessário desenvolver um sistema complexo de edição e votação de novos designs. Por isso a ideia foi retardada até 2008 quando finalmente me fartei das reclamações e decidir dar prioridade a esse projeto. Demorou mais ou menos um ano e meio a desenvolver o sistema e concluir o concurso. Inclusivamente foi anunciado noutro artigo no WebInsider sobre Web Design 2.0.

    O resultado foi espantoso. A adesão foi grande e a briga para ganhar o concurso foi disputada. Agora o mais espantoso é que de repente os usuários quase pararam de reclamar no Twitter sobre o design depois que foi trocado. Melhor, tenho uma quantidade de anunciantes diretos que não tinha antes. Acho que a mudança de design ajudou, mas como sou desenvolvedor ainda tenho minhas dúvidas.

    Agora quanto aos seus sites, acho que não precisa fazer um concurso para você ter um design que inspire credibilidade. O que talvez precise é ir mudando o design dos seus sites de vez em quando para não ficar com aquela imagem de algo antiquado. Por outro lado se não está tendo reclamações sobre o design do seu site, talvez nem precise de mexer. Basta que pergunte a meia dúzia de pessoas se acham o design do seu site legal, e talvez já saiba se tem porquê mexer ou não.

  • Cuide do seu conteúdo como um curador

    Por fim acho que a dica mais importante é que cuide do seu conteúdo como um curador. Esta dica é particularmente direcionada a editores de site de conteúdo contribuído, como os meus, ou outros como o WebInsider.

    Não precisa ser um escritor ou jornalista, mas é importante que escreva com a ortografia e gramática corretas. Caso contrário os usuários chegam no seu site e vêm algo mal escrito e já presumem que a qualidade de todo site é ruim. Na próxima vez que vêem o seu site nos resultados das buscas, nem clicam mais.

Conclusão

Com esta atualização o Google parece ter dado um passo gigante para de fato aumentar a qualidade dos seus resultados de busca, compensando assim os que produzem bom conteúdo e desencorajando os que usam tácticas maliciosas para ganhar visitas aos seus sites de forma ilícita.

Talvez seja cedo para avaliar, mas parece que as regras do jogo mudaram significativamente. Editores de sites e profissionais de SEO que até aqui se estavam valendo de tácticas de Black Hat, com certeza agora precisam repensar as suas abordagens.

É certo que novas tácticas maliciosas vão surgir, mas a minha impressão é que com esta atualização o Google está reduzindo os benefícios de quem tenta essas tácticas, em favor de uma maior compensação de quem cumpre as suas regras promovendo assim a construção de uma Web melhor para os usuários.

E você usuário, editor de site, ou profissional de SEO, o que acha? Será que vai ser assim que o Google vai conseguir promover uma Web melhor? O que você faria para melhorar os sites de forma a terem mais aceitação e consequentemente mais qualidade? [Webinsider]

Comentar

Filtered HTML

  • Endereços de páginas de internet e emails viram links automaticamente.
  • Tags HTML permitidas: <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Quebras de linhas e parágrafos são feitos automaticamente.

Plain text

  • Nenhuma tag HTML permitida.
  • Endereços de páginas de internet e emails viram links automaticamente.
  • Quebras de linhas e parágrafos são feitos automaticamente.
CAPTCHA
Este desafio é para que eu possa verificar se você é um ser humano de carne e osso ou um robê querendo algo que não deve aqui...
CAPTCHA de imagem
Digite o texto exibido na imagem.