robots.txt: o que é, como funciona e o que muda com IA

Q: O robots.txt impede minha página de aparecer no Google?

Não diretamente. O Disallow bloqueia o rastreamento, mas a URL ainda pode aparecer nos resultados sem snippet se outras páginas linkarem para ela. Para remover do índice, use noindex em uma página que continue rastreável.

Q: Qual a diferença entre robots.txt e a tag noindex?

O robots.txt controla se o robô pode acessar a página; o noindex controla se a página pode aparecer nos resultados. São camadas diferentes não intercambiáveis e usá-las juntas na mesma página se anula.

Q: Onde coloco o sitemap no robots.txt?

Em qualquer linha do arquivo, com a diretiva Sitemap: seguida da URL completa do mapa do site. Ela é independente das regras de user-agent.

SEO TécnicoPublicado em 29/06/202613 min de leitura

O robots.txt é um arquivo de texto na raiz do site que diz aos robôs quais áreas eles podem rastrear. Um aspecto que causa confusão é que ele controla acesso, não indexação, e confundir essas duas coisas explica muitos dos erros de SEO técnico. Na era da IA, esse arquivo virou algo maior: a declaração pública de quais sistemas podem ler, citar e treinar com o seu conteúdo. Este artigo explica como o robots.txt funciona, por que ele não tira páginas do Google e como tratá-lo como uma decisão de visibilidade diante de buscadores e modelos generativos.

O que é o robots.txt e onde ele fica

O robots.txt é um arquivo de texto simples, hospedado obrigatoriamente na raiz do host, que informa aos rastreadores quais partes do site podem ser acessadas de forma automatizada. Para vê-lo, basta pegar o domínio e acrescentar /robots.txt no final: o do Google fica em https://developers.google.com/robots.txt. Ele vale por host, protocolo e porta e um arquivo em subpasta não é válido.

O formato é antigo e estável. Segundo o Google, o robots.txt surgiu em 1994, antes mesmo da fundação da empresa em 1998, e um arquivo daquela época ainda seria válido hoje. Em 2022 ele se tornou um padrão proposto da IETF, o RFC 9309, depois de três anos de trabalho da comunidade. Duas características importantes: o arquivo é legível por máquina e por humanos, e é público, qualquer pessoa pode abrir o seu.

O que o robots.txt controla e o que ele não controla

A distinção mais importante para o tema é que o robots.txt controla o rastreamento (se o robô pode buscar a URL), não a indexação (se a página pode aparecer nos resultados). Um atributo Disallow impede o robô de acessar a página, mas não impede que ela apareça na busca. Se outras páginas linkam para ela, o Google pode listar a URL nos resultados, porém, sem snippet, porque não conseguiu ler o conteúdo.

Se o seu objetivo é esconder do índice, o robots.txt é a ferramenta errada. Ele resolve problemas de rastreamento, como evitar que o robô gaste tempo em páginas de filtro infinitas, em resultados internos de busca ou em diretórios sem valor, e não problemas de exibição. Manter essa separação clara na cabeça evita um dos erros mais comuns da área.

Como escrever as regras: user-agent, disallow e allow

A sintaxe do robots.txt combina dois elementos: user-agent (a qual robô a regra se aplica) e as diretivas disallow e allow (o que bloquear ou liberar). Para manter todos os robôs fora da página de carrinho, por exemplo, bastam duas linhas:

user-agent: *
disallow: /cart

A partir daí o arquivo é tão simples ou tão complexo quanto você precisar. A documentação do Google (Robots Refresher, 2025) traz exemplos úteis:

Objetivo	Regra
Aplicar a mesma regra a vários robôs	`user-agent: examplebot` / `user-agent: otherbot` / `disallow: /search`
Bloquear arquivos com um padrão no nome	`user-agent: documentsbot` / `disallow: *.pdf`
Liberar o blog, mas não os rascunhos	`allow: /blog/` / `disallow: /blog/drafts/`
Comentar uma regra para o seu "eu futuro"	`# não quero bots nas fotos antigas`

Três detalhes que costumam ser ignorados. As URLs diferenciam maiúsculas de minúsculas, então /Pagina.html e /pagina.html são caminhos distintos. O Google resolve conflitos pela regra mais específica, não pela primeira que aparece. E a diretiva [Sitemap](/blog/sitemap-xml/):, que aponta o caminho do seu mapa do site, pode ficar em qualquer lugar do arquivo e independe de user-agent.

Exemplos de robots.txt

Estes quatro blocos resolvem os casos mais comuns, e cada um é um arquivo válido por si só. A lógica é sempre a mesma: um Disallow vazio libera tudo, uma barra isolada bloqueia tudo, um caminho restringe um diretório, e a diretiva Sitemap: aponta o mapa do site. Os nomes das diretivas não diferenciam maiúsculas de minúsculas; só os caminhos diferenciam.

Liberar todo o site

Para deixar o site inteiro rastreável, publique um arquivo com user-agent coringa e um Disallow em branco. O Disallow vazio significa "nada está bloqueado" e é a forma que o RFC 9309 prevê para liberar tudo de modo explícito. A ausência de robots.txt, ou um arquivo vazio, também libera tudo, mas o arquivo explícito documenta a intenção e evita que alguém presuma um bloqueio inexistente.

user-agent: *
disallow:

Bloquear todo o site

A barra isolada após disallow impede o rastreamento de todas as URLs do host. Use apenas em ambientes de homologação ou staging, nunca em produção. Importante destacar novamente que isto interrompe o rastreamento, não a indexação. Uma URL bloqueada ainda pode aparecer sem snippet no Google se houver links externos para ela, então, para um ambiente de teste de verdade, a proteção certa é autenticação no servidor.

user-agent: *
disallow: /

Bloquear um diretório específico

Para impedir que os robôs gastem rastreamento em áreas sem valor de busca, como resultados internos de pesquisa ou páginas de filtro, bloqueie o caminho do diretório. A barra final restringe a regra ao diretório e ao que está dentro dele; sem a barra, o padrão também pegaria caminhos que apenas começam com o mesmo texto. Como o arquivo é público, não use isto para esconder pastas sensíveis: listá-las só revela que existem, e conteúdo privado se protege com autenticação.

user-agent: *
disallow: /busca/
disallow: /carrinho/

Declarar o sitemap

A diretiva Sitemap: indica o mapa do site aos buscadores e exige a URL absoluta completa, com protocolo e domínio. Ela é independente de user-agent e pode ficar em qualquer linha do arquivo. Para declarar mais de um sitemap, basta repetir a linha, o que é útil quando há índices separados por idioma ou por tipo de conteúdo.

sitemap: https://www.exemplo.com.br/sitemap.xml

Exemplo completo

Na prática, um robots.txt real combina os blocos: libera o site, protege os caminhos de baixo valor e declara o sitemap em um único arquivo.

user-agent: *
disallow: /busca/
disallow: /carrinho/

sitemap: https://www.exemplo.com.br/sitemap.xml

Por que "Disallow" não tira uma página do Google

Disallow não remove uma página do índice porque indexação e rastreamento são camadas diferentes, e o erro mais frequente é combinar Disallow com noindex esperando que a página suma. O problema é que a instrução noindex é enviada junto com a URL, numa meta tag ou num cabeçalho HTTP. Se o robots.txt proíbe o robô de acessar a URL, ele nunca chega a ler o noindex e as duas regras se anulam.

A correção é escolher a camada certa para o objetivo. Para tirar do índice, use noindex e deixe a página rastreável, para que o robô consiga ver a instrução. Para impedir o rastreamento e economizar recursos do robô, use Disallow, aceitando que a URL ainda possa aparecer sem snippet. Aplicar as duas coisas ao mesmo tempo, na mesma página, é uma contradição que o Google não consegue resolver.

Controle no nível da página: meta robots e X-Robots-Tag

Quando o controle precisa ser por página, e não por diretório, as ferramentas são a meta tag robots e o cabeçalho X-Robots-Tag. Juntos com o robots.txt, eles formam o Protocolo de Exclusão de Robôs (REP). A meta tag vive no HTML (<meta name="robots" content="noindex">); o X-Robots-Tag é um cabeçalho de resposta HTTP que faz o mesmo trabalho, com uma vantagem decisiva: funciona em conteúdo não-HTML, como PDFs, documentos e imagens, que não têm meta tags.

A escolha entre robots.txt e controle de página não é intercambiável, cada um faz algo que o outro não faz. O robots.txt interrompe o ato de rastrear (útil para páginas de resultados infinitas) e funciona em servidores FTP. Só o controle de página consegue, por exemplo, pedir que a página não exiba snippet (nosnippet). Quando várias diretivas se aplicam ao mesmo robô, vale a regra mais restritiva: nosnippet + nofollow se combinam. Uma orientação prática do Google é usar robots.txt para bloqueios amplos e controle de página para bloqueios individuais.

Como o Googlebot lê seus bytes (o limite de 2MB)

O Googlebot não é um programa único, e ele só lê uma parte de cada página. No post Inside Googlebot, de março de 2026, o Google explicou que "Googlebot" é apenas um dos clientes de uma plataforma central de rastreamento; outros clientes (Shopping, AdSense) usam a mesma infraestrutura com nomes diferentes, e cada um define quais tokens procura no robots.txt.

O detalhe mais consequente é o limite de bytes. O Googlebot busca até 2MB por URL de HTML (64MB para PDFs; 15MB como padrão para outros crawlers). Se o HTML passa de 2MB, o robô apenas faz um corte exatamente no limite e tudo o que vem depois simplesmente não existe para o Google: não é buscado, renderizado nem indexado. A implicação para SEO técnico é bem concreta: coloque os elementos críticos <title>, meta tags, canonical e dados estruturados no topo do HTML, e tire CSS e JavaScript pesados de dentro do documento. Some-se a isso o fato de que bloquear CSS e JS no robots.txt prejudica a renderização, porque o serviço de renderização do Google (WRS) irá avaliar uma versão quebrada da página.

robots.txt e os robôs de IA: treinar, citar ou bloquear

Na era da IA, o robots.txt deixou de ser só uma ferramenta de rastreamento e virou uma decisão de visibilidade, porque é nele que você declara quais robôs de IA podem acessar seu conteúdo. O próprio Google sinaliza isso na documentação de 2025 que afirma que o formato acomoda novos user-agents "usados para fins de IA", e um dos exemplos oficiais mostra como bloquear um bot de treinamento de IA liberando o restante do site.

Os robôs de IA, contudo, têm três funções distintas, e tratá-los como um bloco só leva a decisões erradas.

Função	O que faz	Exemplos de tokens
Treinamento	Coleta dados para treinar o modelo (conhecimento de base)	GPTBot, CCBot, ClaudeBot, token Google-Extended, Meta-ExternalAgent
Busca / retrieval	Alimenta um índice que a IA consulta na hora de responder e gera citações	OAI-SearchBot, PerplexityBot, Claude-SearchBot
Fetch sob demanda	Busca a página ao vivo quando um usuário pergunta sobre ela	ChatGPT-User, Perplexity-User, Claude-User

Tokens conferidos em documentações de provedores e diretórios de crawlers (jan–abr/2026); eles mudam com frequência, então valide no site oficial de cada operador antes de publicar.

A consequência estratégica para GEO é contraintuitiva: bloquear robôs de treinamento tem pouco efeito sobre sua visibilidade atual em IA, mas bloquear robôs de busca/retrieval reduz diretamente sua chance de ser citado. Quem quer aparecer nas respostas do ChatGPT, do Perplexity ou do Gemini precisa estar acessível aos robôs de retrieval correspondentes.

O caso do Google merece destaque por ser o mais mal compreendido. O Google-Extended é um token de controle (não um crawler separado), lançado em setembro de 2023, que governa apenas se o seu conteúdo treina e alimenta o Gemini e o Vertex AI. Segundo o Google, ele não afeta inclusão na busca, ranking nem AI Overviews porque o AI Overview e o AI Mode são servidos pelo Googlebot e pelo índice de busca normal. Ou seja, bloquear o Google-Extended não tira você do AI Overview, mas bloquear o Googlebot tira você da busca inteira. Não existe alavanca limpa no robots.txt para sair só do AI Overview; a única via seria nosnippet, que também elimina o snippet tradicional.

Use esta matriz para escolher a ferramenta pelo objetivo, e não pela diretiva:

Seu objetivo	Ferramenta correta	Erro comum
Tirar a página do índice do Google	`noindex` (meta ou header), página rastreável	`Disallow`
Impedir o rastreamento / economizar recursos	`Disallow`	`noindex` em página bloqueada
Impedir treino do Gemini/Vertex	`Disallow` para Google-Extended	bloquear Googlebot
Sair do AI Overview sem sair da busca	não há — avaliar `nosnippet`	Google-Extended
Ser citado por IA generativa	liberar os robôs de retrieval	bloquear todos os bots de IA
Esconder conteúdo sensível	autenticação no servidor	`Disallow`

Um alerta final sobre IAs: o robots.txt é um pedido, não uma cerca. Robôs bem-comportados respeitam; scrapers agressivos, como o Bytespider e crawlers furtivos, têm histórico documentado de ignorá-lo. Para bloqueio efetivo de quem não coopera, a aplicação precisa ser no servidor ou na borda (WAF/CDN), não no arquivo de texto.

Erros comuns e diretivas que não existem mais

Vários tutoriais ainda ensinam regras que não funcionam mais. O noindex dentro do robots.txt foi descontinuado pelo Google em 2019 e nunca deve aparecer ali. O Crawl-delay nunca foi suportado pelo Googlebot, embora alguns outros robôs o honrem. Bloquear /admin/ no robots.txt não esconde a pasta, como o arquivo é público, isso só anuncia que ela existe; conteúdo sensível se protege com autenticação. Por fim, mudanças não são instantâneas: o Google armazena o robots.txt em cache por cerca de 24 horas, e responder erros 4xx ou 5xx por engano nesse arquivo pode fazer o robô tratar o site como totalmente liberado ou totalmente bloqueado.

Perguntas frequentes sobre robots.txt

O robots.txt impede minha página de aparecer no Google?

Não diretamente. O Disallow bloqueia o rastreamento, mas a URL ainda pode aparecer nos resultados sem snippet se outras páginas linkarem para ela. Para remover do índice, use noindex em uma página que continue rastreável.

Bloquear no robots.txt protege uma página privada?

Não. O robots.txt é público e legível por qualquer um, e robôs maliciosos o ignoram. Listar uma pasta em Disallow apenas revela que ela existe. Conteúdo privado deve ter autenticação no servidor.

Devo bloquear GPTBot e outros robôs de IA?

Depende do objetivo. Bloquear robôs de treinamento (como GPTBot e CCBot) protege seu conteúdo de alimentar modelos, mas tem pouco impacto na sua visibilidade atual em respostas de IA. Bloquear robôs de busca/retrieval reduz sua chance de ser citado.

Bloquear o Google-Extended me tira do AI Overview?

Não. O Google-Extended controla apenas o treino do Gemini e do Vertex AI. O AI Overview usa o Googlebot e o índice de busca normal, então bloquear o Google-Extended não afeta sua presença lá nem o ranking.

Qual a diferença entre robots.txt e a tag noindex?

O robots.txt controla se o robô pode acessar a página; o noindex controla se a página pode aparecer nos resultados. São camadas diferentes não intercambiáveis e usá-las juntas na mesma página se anula.

Onde coloco o sitemap no robots.txt?

Em qualquer linha do arquivo, com a diretiva Sitemap: seguida da URL completa do mapa do site. Ela é independente das regras de user-agent.

Próximo passo

A forma mais segura de tratar o robots.txt hoje é parar de pensar nele como "onde se bloqueia coisas" e passar a vê-lo como a declaração de acesso do site para buscadores e para IAs. Audite o seu arquivo com duas perguntas: ele está usando a camada certa para cada objetivo (rastreamento vs. indexação) e está liberando os robôs de retrieval que você quer que citem o seu conteúdo? Quem não revisa o robots.txt há mais de seis meses provavelmente está bloqueando robôs de IA sem saber ou deixando passar os que importam.

Para validar se seu robots.txt permite acesso aos crawlers e verificar outros 60+ critérios técnicos de SEO, use o SEO Check. Para entender se seu site está preparado para ser citado por motores de busca generativa como ChatGPT, Perplexity e Copilot, use o GEO Check.