Usando o Robots.txt de forma correta

Sem Comentários

Robô (em informática / WEB) é uma ferramenta automática que fica percorrendo sites e coletando informações, verificando se houveram alterações ou validando suas informações.

A princípio os robôs (robots) podem acessar qualquer página/conteúdo/imagem do seu site sem que você tenha que dar permissão para tal. Mas você pode criar um arquivinho chamado robots.txt na raíz do seu site e, dentro dele, escrever algumas regrinhas que te ajudarão a controlar o que os robôs fazem no seu site.

Imagine o robots.txt como uma lista de convidados para uma festa… Se não tá na lista não entra. A única diferenças é que com o robots.txt não há penetras. Você pode bloquear tanto o site inteiro como documentos e arquivos específicos, facilitando assim o controle de “quem entra” no seu site.

Criando o seu robots.txt

Suponhamos que você tenha um arquivo chamado confidencial.html na raiz do seu site e você não quer que os indexadores dos sistemas de buscas e nenhum outro tipo de robô tenha acesso a esse arquivo… É só colocar isso aqui no seu robots.txt:

1 User-agent: *
2 Disallow: /confidencial.html

Isso fará com que nenhum robot consiga acessar o arquivo especificado… Mas você também quer bloquear uma pasta do seu site para que nenhum robozinho possa entrar e ver algum arquivo dentro dela, então é só fazer assim:

1 User-agent: *
2 Disallow: /confidencial.html
3 Disallow: /minhapasta/

Comentários no robots.txt

Se você é uma pessoa metódica organizada e quer colocar comentários no seu robots é só usar o caractere “tralha” (#) para isso, dessa forma:

1 # A regra servirá para todos os tipos de robôs
2 User-agent: *
3 # Meu arquivo de senhas ultra-secretas que ninguém pode saber
4 Disallow: /confidencial.html
5 # Bloqueando a minha pasta cheia de fotos ;X
6 Disallow: /minhapasta/

Bloqueando um site inteiro

Tá com a pá virada e quer bloquear o acesso completo de todos os robôs ao seu site? Não precisa tirar ele do ar, e só fazer isso:

1 # Adios~
2 User-agent: *
3 Disallow: /

Criando a lista VIP da festa

Tem gente que prefere bloquear todo mundo e permitir só alguns, e com o robots.txt não é diferente:

1 # Permitindo apenas dois arquivos e uma pasta:
2 User-agent: *
3 Allow: /meu_arquivo.html
4 Allow: /pasta/contato.html
5 Allow: /imagens/
6 Disallow: /

Isso fará com que apenas os dois arquivos especificados e a pasta sejam acessíveis, o restante será bloqueado.

Fonte:  Thiago Belem: Usando o Robots.txt de forma correta

Arquivos

 

Leave a Comment

Digite o código. (obrigatório)

Vamos ler mais?

Ver mais artigos