Blog

Blog

robots.txt: o que é, como funciona e o que muda com IA

O robots.txt é um arquivo de texto na raiz do site que diz aos robôs quais áreas eles podem rastrear. Ele controla acesso, não indexação, e confundir essas duas coisas explica muitos dos erros de SEO técnico. Na era da IA, esse arquivo virou algo maior: a declaração pública de quais sistemas podem ler, citar e treinar com o seu conteúdo. Este artigo explica como o robots.txt funciona, por que ele não tira páginas do Google e como tratá-lo como uma decisão de visibilidade diante de buscadores e modelos generativos.

O que é o robots.txt e onde ele fica

O robots.txt é um arquivo de texto simples, hospedado obrigatoriamente na raiz do host, que informa aos rastreadores quais partes do site podem ser acessadas de forma automatizada. Para vê-lo, basta pegar o domínio e acrescentar /robots.txt no final: o do Google fica em https://developers.google.com/robots.txt. Ele vale por host, protocolo e porta e um arquivo em subpasta não é válido.

O formato é antigo e estável. Segundo o Google, o robots.txt surgiu em 1994, antes mesmo da fundação da empresa em 1998, e um arquivo daquela época ainda seria válido hoje. Em 2022 ele se tornou um padrão proposto da IETF, o RFC 9309, depois de três anos de trabalho da comunidade. Duas características importam para o resto deste texto: o arquivo é legível por máquina e por humanos, e é público, qualquer pessoa pode abrir o seu.

O que o robots.txt controla e o que ele não controla

A distinção mais importante para o tema é que o robots.txt controla o rastreamento (se o robô pode buscar a URL), não a indexação (se a página pode aparecer nos resultados). Um atributo Disallow impede o robô de acessar a página, mas não impede que ela apareça na busca: se outras páginas linkam para ela, o Google pode listar a URL nos resultados, porém, sem snippet, porque não conseguiu ler o conteúdo.

A consequência prática é direta. Se o seu objetivo é esconder do índice, o robots.txt é a ferramenta errada. Ele resolve problemas de rastreamento, como evitar que o robô gaste tempo em páginas de filtro infinitas, em resultados internos de busca ou em diretórios sem valor, e não problemas de exibição. Manter essa separação clara na cabeça evita um dos erros mais comuns da área.

Como escrever as regras: user-agent, disallow e allow

A sintaxe do robots.txt combina dois elementos: user-agent (a qual robô a regra se aplica) e as diretivas disallow e allow (o que bloquear ou liberar). Para manter todos os robôs fora da página de carrinho, por exemplo, bastam duas linhas:

user-agent: *
disallow: /cart

A partir daí o arquivo é tão simples ou tão complexo quanto você precisar. A documentação do Google (Robots Refresher, 2025) traz exemplos úteis:

ObjetivoRegra
Aplicar a mesma regra a vários robôsuser-agent: examplebot / user-agent: otherbot / disallow: /search
Bloquear arquivos com um padrão no nomeuser-agent: documentsbot / disallow: *.pdf
Liberar o blog, mas não os rascunhosallow: /blog/ / disallow: /blog/drafts/
Comentar uma regra para o seu "eu futuro"# não quero bots nas fotos antigas

Três detalhes que costumam ser ignorados. As URLs diferenciam maiúsculas de minúsculas, então /Pagina.html e /pagina.html são caminhos distintos. O Google resolve conflitos pela regra mais específica, não pela primeira que aparece. E a diretiva Sitemap:, que aponta o caminho do seu mapa do site, pode ficar em qualquer lugar do arquivo e independe de user-agent.

Por que "Disallow" não tira uma página do Google

Disallow não remove uma página do índice porque indexação e rastreamento são camadas diferentes, e o erro mais frequente é combinar Disallow com noindex esperando que a página suma. O problema é que a instrução noindex é enviada junto com a URL, numa meta tag ou num cabeçalho HTTP. Se o robots.txt proíbe o robô de acessar a URL, ele nunca chega a ler o noindex e as duas regras se anulam.

A correção é escolher a camada certa para o objetivo. Para tirar do índice, use noindex e deixe a página rastreável, para que o robô consiga ver a instrução. Para impedir o rastreamento e economizar recursos do robô, use Disallow, aceitando que a URL ainda possa aparecer sem snippet. Aplicar as duas coisas ao mesmo tempo, na mesma página, é uma contradição que o Google não consegue resolver.

Controle no nível da página: meta robots e X-Robots-Tag

Quando o controle precisa ser por página, e não por diretório, as ferramentas são a meta tag robots e o cabeçalho X-Robots-Tag. Juntos com o robots.txt, eles formam o Protocolo de Exclusão de Robôs (REP). A meta tag vive no HTML (<meta name="robots" content="noindex">); o X-Robots-Tag é um cabeçalho de resposta HTTP que faz o mesmo trabalho, com uma vantagem decisiva: funciona em conteúdo não-HTML, como PDFs, documentos e imagens, que não têm meta tags.

A escolha entre robots.txt e controle de página não é intercambiável, cada um faz algo que o outro não faz. O robots.txt interrompe o ato de rastrear (útil para páginas de resultados infinitas) e funciona em servidores FTP. Só o controle de página consegue, por exemplo, pedir que a página não exiba snippet (nosnippet). Quando várias diretivas se aplicam ao mesmo robô, vale a regra mais restritiva: nosnippet + nofollow se combinam. Uma orientação prática do Google é usar robots.txt para bloqueios amplos e controle de página para bloqueios individuais.

Como o Googlebot lê seus bytes (o limite de 2MB)

O Googlebot não é um programa único, e ele só lê uma parte de cada página. No post Inside Googlebot, de março de 2026, o Google explicou que "Googlebot" é apenas um dos clientes de uma plataforma central de rastreamento; outros clientes (Shopping, AdSense) usam a mesma infraestrutura com nomes diferentes, e cada um define quais tokens procura no robots.txt.

O detalhe mais consequente é o limite de bytes. O Googlebot busca até 2MB por URL de HTML (64MB para PDFs; 15MB como padrão para outros crawlers). Se o HTML passa de 2MB, o robô apenas faz um corte exatamente no limite e tudo o que vem depois simplesmente não existe para o Google: não é buscado, renderizado nem indexado. A implicação para SEO técnico é bem concreta: coloque os elementos críticos <title>, meta tags, canonical e dados estruturados no topo do HTML, e tire CSS e JavaScript pesados de dentro do documento. Some-se a isso o fato de que bloquear CSS e JS no robots.txt prejudica a renderização, porque o serviço de renderização do Google (WRS) irá avaliar uma versão quebrada da página.

robots.txt e os robôs de IA: treinar, citar ou bloquear

Na era da IA, o robots.txt deixou de ser só uma ferramenta de rastreamento e virou uma decisão de visibilidade, porque é nele que você declara quais robôs de IA podem acessar seu conteúdo. O próprio Google sinaliza isso na documentação de 2025 que afirma que o formato acomoda novos user-agents "usados para fins de IA", e um dos exemplos oficiais mostra como bloquear um bot de treinamento de IA liberando o restante do site.

Os robôs de IA, contudo, têm três funções distintas, e tratá-los como um bloco só leva a decisões erradas.

FunçãoO que fazExemplos de tokens
TreinamentoColeta dados para treinar o modelo (conhecimento de base)GPTBot, CCBot, ClaudeBot, token Google-Extended, Meta-ExternalAgent
Busca / retrievalAlimenta um índice que a IA consulta na hora de responder e gera citaçõesOAI-SearchBot, PerplexityBot, Claude-SearchBot
Fetch sob demandaBusca a página ao vivo quando um usuário pergunta sobre elaChatGPT-User, Perplexity-User, Claude-User

Tokens conferidos em documentações de provedores e diretórios de crawlers (jan–abr/2026); eles mudam com frequência, então valide no site oficial de cada operador antes de publicar.

A consequência estratégica para GEO é contraintuitiva: bloquear robôs de treinamento tem pouco efeito sobre sua visibilidade atual em IA, mas bloquear robôs de busca/retrieval reduz diretamente sua chance de ser citado. Quem quer aparecer nas respostas do ChatGPT, do Perplexity ou do Gemini precisa estar acessível aos robôs de retrieval correspondentes.

O caso do Google merece destaque por ser o mais mal compreendido. O Google-Extended é um token de controle (não um crawler separado), lançado em setembro de 2023, que governa apenas se o seu conteúdo treina e alimenta o Gemini e o Vertex AI. Segundo o Google, ele não afeta inclusão na busca, ranking nem AI Overviews porque o AI Overview e o AI Mode são servidos pelo Googlebot e pelo índice de busca normal. Ou seja, bloquear o Google-Extended não tira você do AI Overview, mas bloquear o Googlebot tira você da busca inteira. Não existe alavanca limpa no robots.txt para sair só do AI Overview; a única via seria nosnippet, que também elimina o snippet tradicional.

Use esta matriz para escolher a ferramenta pelo objetivo, e não pela diretiva:

Seu objetivoFerramenta corretaErro comum
Tirar a página do índice do Googlenoindex (meta ou header), página rastreávelDisallow
Impedir o rastreamento / economizar recursosDisallownoindex em página bloqueada
Impedir treino do Gemini/VertexDisallow para Google-Extendedbloquear Googlebot
Sair do AI Overview sem sair da buscanão há — avaliar nosnippetGoogle-Extended
Ser citado por IA generativaliberar os robôs de retrievalbloquear todos os bots de IA
Esconder conteúdo sensívelautenticação no servidorDisallow

Um alerta final sobre IAs: o robots.txt é um pedido, não uma cerca. Robôs bem-comportados respeitam; scrapers agressivos, como o Bytespider e crawlers furtivos, têm histórico documentado de ignorá-lo. Para bloqueio efetivo de quem não coopera, a aplicação precisa ser no servidor ou na borda (WAF/CDN), não no arquivo de texto.

Erros comuns e diretivas que não existem mais

Vários tutoriais ainda ensinam regras que não funcionam mais. O noindex dentro do robots.txt foi descontinuado pelo Google em 2019 e nunca deve aparecer ali. O Crawl-delay nunca foi suportado pelo Googlebot, embora alguns outros robôs o honrem. Bloquear /admin/ no robots.txt não esconde a pasta, como o arquivo é público, isso só anuncia que ela existe; conteúdo sensível se protege com autenticação. Por fim, mudanças não são instantâneas: o Google armazena o robots.txt em cache por cerca de 24 horas, e responder erros 4xx ou 5xx por engano nesse arquivo pode fazer o robô tratar o site como totalmente liberado ou totalmente bloqueado.

Perguntas frequentes sobre robots.txt

O robots.txt impede minha página de aparecer no Google?

Não diretamente. O Disallow bloqueia o rastreamento, mas a URL ainda pode aparecer nos resultados sem snippet se outras páginas linkarem para ela. Para remover do índice, use noindex em uma página que continue rastreável.

Bloquear no robots.txt protege uma página privada?

Não. O robots.txt é público e legível por qualquer um, e robôs maliciosos o ignoram. Listar uma pasta em Disallow apenas revela que ela existe. Conteúdo privado deve ter autenticação no servidor.

Devo bloquear GPTBot e outros robôs de IA?

Depende do objetivo. Bloquear robôs de treinamento (como GPTBot e CCBot) protege seu conteúdo de alimentar modelos, mas tem pouco impacto na sua visibilidade atual em respostas de IA. Bloquear robôs de busca/retrieval reduz sua chance de ser citado.

Bloquear o Google-Extended me tira do AI Overview?

Não. O Google-Extended controla apenas o treino do Gemini e do Vertex AI. O AI Overview usa o Googlebot e o índice de busca normal, então bloquear o Google-Extended não afeta sua presença lá nem o ranking.

Qual a diferença entre robots.txt e a tag noindex?

O robots.txt controla se o robô pode acessar a página; o noindex controla se a página pode aparecer nos resultados. São camadas diferentes não intercambiáveis e usá-las juntas na mesma página se anula.

Onde coloco o sitemap no robots.txt?

Em qualquer linha do arquivo, com a diretiva Sitemap: seguida da URL completa do mapa do site. Ela é independente das regras de user-agent.

Próximo passo

A forma mais segura de tratar o robots.txt hoje é parar de pensar nele como "onde se bloqueia coisas" e passar a vê-lo como a declaração de acesso do site para buscadores e para IAs. Audite o seu arquivo com duas perguntas: ele está usando a camada certa para cada objetivo (rastreamento vs. indexação) e está liberando os robôs de retrieval que você quer que citem o seu conteúdo? Quem não revisa o robots.txt há mais de seis meses provavelmente está bloqueando robôs de IA sem saber ou deixando passar os que importam.


Para validar se seu robots.txt permite acesso aos crawlers e verificar outros 60+ critérios técnicos de SEO, use o SEO Check. Para entender se seu site está preparado para ser citado por motores de busca generativa como ChatGPT, Perplexity e Copilot, use o GEO Check.

Continue lendo

SEO Técnico Por que você provavelmente não precisa de um llms.txt 11 min de leitura SEO Técnico Schema e entidades para IAs 11 min de leitura