Evite conteúdo duplicado faxinando as URLs

gêmeos
fecharEste post foi publicado há mais de seis meses, e as informações aqui contidas podem estar desatualizadas ou mesmo não terem mais nenhuma validade. Não nos responsabilizamos por eventuais mal entendidos.

Não tem como querer levar um blog a sério, ganhar dinheiro com ele, sem estar por dentro pelo menos dos rudimentos da assim chamada SEO, ou otimização para mecanismos de busca. E para quem já deu os primeiros passos nessa trilha, uma das ameaças mais presentes e frequentes diz respeito a conteúdo duplicado.

 

Os buscadores — entre os quais destaca-se, indubitavelmente, o Google — costumam privilegiar nas páginas de resultados os conteúdos exclusivos, autênticos, originais e únicos. Já conteúdos que possam ser identificados como copiados ou duplicados costumam ser penalizados, o que pode implicar punições com resultados desastrosos para o site.

Tipos de conteúdo duplicado e suas causas

Existem basicamente dois tipos de conteúdo duplicado que podem afetar uma página: o que ocorre em outros sites (por cópia, plágio, ou qualquer outra forma que implique alguém apropriar-se de seu conteúdo, seja isso legítimo ou não), e o que ocorre dentro do próprio site (normalmente por problemas de configuração da ferramenta de publicação ou outros aspectos técnicos).

Aqui vamos tentar amenizar um tipo específico de conteúdo duplicado dentro do próprio site, que poderá ser resolvido com algumas regrinhas no .htaccess. Outros — como os causados pela aparição de um mesmo conteúdo na página inicial, na página do artigo, na página de tags, na página da categoria e nos arquivos cronológicos — devem ser resolvidos usando ferramentas da própria ferramenta de publicação.

Query Strings fantasma

Quem divulga seu conteúdo por RSS usando o FeedBurner já deve ter percebido que é comum que as URLs oriundas dele contem com um parâmetro extra que em 99% das vezes é indesejado. As URLs ficam parecidas com o exemplo abaixo.

portofacil.net/evite-conteudo-duplicado-faxinando-as-urls/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed&utm_content=FeedBurner

Outro exemplo comum (em blogs movidos pelo WordPress é a presença do parâmetro replytocom. Em temas que não contemplam comentários aninhados por DHTML o sistema insere este parâmetro em todos os links de “responder” a um comentário. O resultado disso é que os buscadores acabam indexando, muitas vezes, dezenas e dezenas de vezes a mesma página por causa dos parâmetros extra.

No Google Webmaster Tools é possível configurar quais parâmetros serão ignorados, e provavelmente nas ferramentas para webmaster de outros buscadores também seja possível configurar isso. Mas ainda assim é uma solução para cada caso, e nem sempre será possível prever quais serão os parâmetros que aparecerão na URL sem ter sido convidados.

As tentativas de injeção de código

Outro problema que os usuários podem enfrentar diz respeito a tentativas de invasão que exploram, ou tentam explorar, vulnerabilidades do PHP que permitam acesso a algum arquivo de sistema.

Gato com laser nos olhos

Veja a URL abaixo.

portofacil.net/page/7/?option=com_ccnewsletter&controller=..%2F%2F..%2F%2F..%2F%2F..%2F%2F..%2F%2F..%2F%2F..%2F%2F..%2F%2F%2Fproc%2Fself%2Fenviron%0000

Esse é um exemplo real de uma URL que não chegou a ser indexada, mas que foi acessada o suficiente para aparecer nas estatísticas. O moleque que a utilizou estava tentando obter informações que depois seriam usadas para invadir o servidor.

Essa ameaça também pode ser bem amenizada utilizando a técnica que pretendemos ensinar.

A solução para o problema

Para resolver este problema de maneira generalizada, basta fazer a inclusão de umas poucas linhas no arquivo .htaccess da raiz do seu site.

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
RewriteCond %{QUERY_STRING} !=""
RewriteCond %{QUERY_STRING} !^p=.* 
RewriteCond %{QUERY_STRING} !^s=.*
RewriteCond %{REQUEST_URI} !^/wp-admin.* 
RewriteRule ^(.*)$ /$1? [R=301,L] 
</IfModule>

O que as linhas acima instruem o servidor web a fazer é bem simples: verificar se o módulo de reescrita de URL está instalado (se você tem permalinks amigáveis funcionando no WordPress, ou em qualquer outro CMS, ele está), e verificar se há uma query string na URL.

Caso haja uma query string, ela não seja ?p= nem ?s= (usadas pelo WordPress quando um determinado post ainda não tem um link permanente, ou quando os permalinks amigáveis estão desativados, e quando se faz uma pesquisa usando o buscador nativo da ferramenta), nem esteja dentro do wp-admin, então a URL será redirecionada para si mesma, porém sem as query strings.[/hidepost]

O exemplo acima está plenamente funcional para o WordPress, mas qualquer sistema de gerenciamento de conteúdo pode se beneficiar desta técnica com pequenas alterações.

Caso você queira implementar esse artifício em seu site, abra um chamado de suporte e faremos a configuração de seu .htaccess com o maior prazer!

 

Quero ser cliente da PortoFácil!Contato

Avalie este conteúdo!

Avaliação média: 4.63
Total de Votos: 30

Evite conteúdo duplicado faxinando as URLs

Compartilhe

Publicado por Janio Sarmento – 08 de junho de 2011