Por que você provavelmente não precisa de um llms.txt

SEO TécnicoPublicado em 16/06/2026Atualizado em 01/08/202611 min de leitura

Arquivos llms.txt simplesmente não fazem sentido do ponto de vista da descoberta por IAs ou por sistemas de buscas. Como o conteúdo é auto declarado, o sistema não pode apenas confiar no que você mesmo informa ali como critério de diferenciação entre sites. Você está basicamente dizendo "tenho o melhor site sobre tal assunto, comprem meus produtos". Adotá-lo não causa dano direto, mas para a maioria dos sites o retorno hoje é nulo.

O que é o llms.txt e qual problema ele resolve

O llms.txt é um arquivo markdown colocado na raiz do site (em seusite.com/llms.txt) que oferece a sistemas de IA um índice curado do seu conteúdo mais relevante. A proposta foi publicada por Jeremy Howard, da Answer.AI, em 3 de setembro de 2024. O objetivo é ajudar modelos de linguagem no momento da inferência, porque janelas de contexto seriam pequenas demais para analisar sites inteiros e converter HTML cheio de navegação, anúncios e JavaScript em texto limpo seria impreciso.

Apesar do nome lembrar o robots.txt, o llms.txt não é uma diretiva ele não controla nem bloqueia acesso a nada. A intenção original mirava ambientes de desenvolvimento e documentação de APIs, onde um agente de IA precisa localizar rápido como usar uma biblioteca. O enquadramento de "visibilidade em IA" veio depois, colado pela indústria de SEO.

Se llms.txt não é um padrão, quem governa as regras?

O llms.txt é uma convenção de comunidade, sem respaldo do W3C, da IETF ou de qualquer corpo de padronização reconhecido. Não há mecanismo de validação oficial nem coalizão de plataformas comprometidas em consumi-lo. Isso é decisivo porque todo padrão web que vingou tinha um dono claro das regras. O schema.org se consolidou justamente por ter nascido como uma aliança entre Bing, Google, Yahoo e Yandex, com vocabulário e governança definidos. O llms.txt não tem esse arranjo, e por isso a adoção avança sem que ninguém garanta que o esforço será recompensado.

A própria origem da proposta reforça isso. Em um episódio recente do podcast Search Off the Record, o Search Advocate do Google Martin Splitt contou que conversou com uma das pessoas envolvidas na criação do llms.txt e que a intenção nunca foi facilitar a descoberta de conteúdo por buscadores ou modelos. A ideia era servir quando um sistema de IA já conhece o site e quer entender o que mais existe ali, e não funcionar como vitrine de descoberta. Um sistema não tem como confiar em um arquivo que o próprio dono do site escreve para se autopromover.

Quantos sites usam llms.txt

A publicação de arquivos llms.txt cresceu muito, mas o número de adoção engana. Levantamentos amplos convergem perto de 10%: a SE Ranking, analisando 300 mil domínios, encontrou uma taxa de 10,13%, e dados do HTTP Archive mostram cerca de 10% das páginas com o arquivo, em forte crescimento ano a ano. A Ahrefs, em uma base mais técnica de 137 mil domínios, chegou a 28%, percentual que ela própria trata como teto superior por causa do perfil dos clientes. O ponto é que ter o arquivo não significa que ele seja lido.

Há ainda uma armadilha metodológica que infla esses números. Detectar o arquivo por resposta HTTP 200 superestima a adoção real, porque muitos servidores devolvem 200 para qualquer caminho, gerando falsos positivos (soft 404). Estudos mais rigorosos validam se o conteúdo é markdown verdadeiro e descartam páginas de erro disfarçadas. Outro sinal revelador apareceu na SE Ranking: sites de tráfego médio e baixo adotam o llms.txt mais do que os sites autoritativos, o que sugere adoção movida por esperança de visibilidade, não por retorno comprovado.

Algum sistema de IA realmente lê o llms.txt?

Para busca e citação, praticamente nenhum. O estudo mais robusto até agora é o da Ahrefs, publicado em maio de 2026 sobre 137 mil domínios: 97% dos arquivos llms.txt não recebem nenhuma requisição. Entre cerca de 38 mil domínios com arquivos válidos, apenas cerca de 1.100 receberam algum tráfego. E quando há requisições, 96% vêm de bots, a maioria nem de IA, com bots de recuperação ligados a ChatGPT e Perplexity respondendo por apenas 1% do total.

Quem de fato consome o arquivo não é a busca com IA, e sim agentes de código e crawlers de treino. Na base da Ahrefs, os principais bots individuais foram o Claude-Code e o GPTBot, ligados a ferramentas de desenvolvimento. Outros experimentos chegam à mesma conclusão. A OtterlyAI monitorou 62.100 visitas de bots de IA em 90 dias e viu apenas 84 mirando o llms.txt, 0,1% do total, e depois removeu o item do seu checklist de auditoria GEO.

O efeito sobre citações também não aparece. O estudo da Trakkr cruzou 37.894 domínios e não encontrou nenhuma vantagem de citação para quem adota o arquivo. Mais revelador: entre os 50 domínios mais citados por sistemas de IA, apenas 6% têm um llms.txt. Os sites que já são bem citados não dependem dele, e a adoção aumenta justamente entre os que tentam alcançar visibilidade que ainda não têm.

O que o Google diz sobre o llms.txt

O Google não usa o llms.txt e não pretende usá-lo para busca. John Mueller afirmou em junho de 2025 que nenhum sistema de IA usava o arquivo e que isso era evidente nos logs de servidor. Ele comparou o llms.txt ao meta tag keywords, recurso há muito desacreditado e ignorado pelo buscador. Ele também desaconselhou criar páginas markdown paralelas só para bots e sugeriu aplicar noindex ao arquivo, já que ele pode ser indexado por engano e poluir os resultados de busca.

A posição virou orientação oficial. Em 15 de maio de 2026, o Google publicou um guia sobre otimização para recursos de IA generativa que lista o llms.txt em uma seção de mitos, entre as táticas que você não precisa, ao lado de fragmentar conteúdo em pedaços e reescrever texto especificamente para modelos. Gary Illyes e Amir Taboul confirmaram, no Search Central Live Deep Dive Asia Pacific, que o Google não está implementando o llms.txt. A razão técnica é simples: AI Overviews e AI Mode já puxam do mesmo índice usado pelo ranqueamento clássico.

A contradição do Lighthouse

O Google deu dois sinais opostos sobre o llms.txt na mesma semana. Dias após o guia de busca dizer para ignorar o arquivo, o Lighthouse 13.3 (lançado em 20 de maio de 2026) ganhou uma categoria experimental chamada Agentic Browsing, com uma auditoria que checa se o site fornece um llms.txt e sinaliza erros ao buscá-lo. A contradição é menos grave do que parece: a auditoria trata um llms.txt ausente como "não aplicável", e não como falha, e mede prontidão para agentes, não visibilidade em busca.

Mueller resolveu a aparente incoerência no mesmo dia. Segundo ele, o llms.txt não é feito para busca; é uma muleta temporária, talvez para economizar tokens, voltada a ferramentas de código que precisam interpretar documentação técnica. Para sites que não são de desenvolvedor, ele afirma que não faz sentido, e usa um exemplo direto: uma versão em markdown das especificações de um sapato não vai gerar mais vendas, só facilita a vida de concorrentes, scrapers e agregadores que querem coletar seus preços e fichas técnicas.

Quando um llms.txt faz sentido e quando é só trabalho

O llms.txt faz sentido em um cenário específico: documentação técnica e de APIs consumida por agentes de código. Nesse contexto, ferramentas como Claude Code e assistentes de desenvolvimento se beneficiam de uma versão markdown enxuta e econômica em tokens da referência. Para passar a auditoria Agentic Browsing do Lighthouse, criar o arquivo também funciona como uma vitória barata de dois minutos, desde que você não espere nenhum ganho de ranqueamento ou citação em troca.

Para a maioria dos sites, é só trabalho extra. E-commerce, sites institucionais e blogs comuns não têm uso real para o arquivo hoje. Pior, há riscos concretos. Um llms.txt curado à mão envelhece e passa a apontar para páginas que mudaram ou deixaram de existir. Por ser autodeclarado, é um vetor fácil de spam. E muita gente confunde a tática com publicar cópias markdown de todas as páginas, o que gera conteúdo duplicado em escala se esses arquivos forem indexáveis, competindo com as próprias páginas originais. O reflexo do noindex sugerido por Mueller existe justamente para conter parte desses efeitos.

llms.txt vs. robots.txt vs. sitemap vs. schema

Os quatro arquivos resolvem problemas diferentes e não se substituem. A tabela abaixo resume o que cada um controla, quem realmente o consome e seu status como padrão.

Arquivo	O que faz	Quem usa de fato	Status
robots.txt	Define regras de acesso para crawlers	Todos os principais buscadores e crawlers de IA	Padrão consolidado (RFC 9309)
sitemap.xml	Lista URLs para indexação	Buscadores como Google e Bing	Protocolo amplamente adotado
schema.org	Adiciona metadados estruturados por página	Buscadores, para rich results e desambiguação	Padrão consolidado por várias empresas
llms.txt	Índice markdown curado para modelos	Quase só agentes de código e crawlers de treino	Proposta sem corpo de padronização

Fontes: documentação oficial de cada protocolo; estudos de uso da Ahrefs e da Trakkr (2026).

Perguntas frequentes

O llms.txt ajuda a aparecer no ChatGPT ou no Gemini?

Não há evidência de que ajude. Nenhuma empresa de IA confirmou usar o llms.txt para escolher fontes ou gerar respostas, e estudos de citação não encontraram vantagem para quem adota o arquivo. A visibilidade nessas plataformas vem de conteúdo bem avaliado e de autoridade temática, não de um arquivo na raiz do site.

Preciso de llms.txt para ranquear nos AI Overviews?

Não. O Google declarou que os AI Overviews e o AI Mode usam o mesmo índice do ranqueamento clássico e listou o llms.txt entre as táticas que você não precisa. Para visibilidade nas superfícies de IA do Google, vale o SEO de sempre, com HTML normal e conteúdo de qualidade.

Qual a diferença entre llms.txt e robots.txt?

O robots.txt é uma diretiva consolidada que define o que crawlers podem ou não acessar, respeitada pelos principais bots. O llms.txt não controla nem bloqueia nada; é apenas um índice curado em markdown, sem corpo de padronização e com uso real quase nulo entre sistemas de busca com IA.

O Lighthouse reclamou que meu site não tem llms.txt. É problema?

Não é problema de busca. A auditoria Agentic Browsing do Lighthouse mede prontidão para agentes e trata o arquivo ausente como "não aplicável", e não como falha. O próprio Google diz que o llms.txt não é usado para ranqueamento, então a ausência dele não afeta sua visibilidade na busca.

Devo publicar uma versão markdown de cada página para a IA?

Não é recomendado para a maioria dos sites. Publicar cópias markdown de todas as páginas pode gerar conteúdo duplicado em escala e competir com as páginas originais. O Google desaconselha criar versões paralelas voltadas só para bots, já que os crawlers leem HTML sem dificuldade.

O llms.txt está morto?

Não está morto, mas vive em um limbo. A publicação do arquivo cresce, enquanto o consumo por sistemas de IA segue marginal e nenhuma grande plataforma se comprometeu a usá-lo. Tem valor real em um nicho, documentação técnica para agentes de código, e pouco efeito fora disso em junho de 2026.

Conclusão: foque no que já funciona

Em junho de 2026, a recomendação prática é não investir esforço em um arquivo voltado para máquina antes que ele tenha consumidores reais. A posição do Google vale para o ecossistema dele, e o cenário de agentes ainda não cristalizou nenhum padrão dominante, então qualquer aposta hoje é especulativa. O caminho seguro continua sendo HTML semântico, conteúdo original e boa saúde técnica, que servem tanto à busca tradicional quanto às superfícies de IA.

Se você quer saber o que os bots realmente fazem no seu site, a evidência está nos seus próprios logs de servidor, não em estudos de terceiros. Verificar quais agentes acessam quais arquivos é mais útil do que adotar uma tática pela esperança de que ela funcione. Para o tratamento de crawlers de IA por diretiva de fato, vale revisar a configuração do seu robots.txt para sistemas de IA