Por que você provavelmente não precisa de um llms.txt
Arquivos llms.txt simplesmente não fazem sentido do ponto de vista da descoberta por IAs ou por sistemas de buscas. Como o conteúdo é auto declarado, o sistema não pode apenas confiar no que você mesmo informa ali como critério de diferenciação entre sites. Você está basicamente dizendo "tenho o melhor site sobre tal assunto, comprem meus produtos". Adotá-lo não causa dano direto, mas para a maioria dos sites o retorno hoje é nulo.
O que é o llms.txt e qual problema ele resolve
O llms.txt é um arquivo markdown colocado na raiz do site (em seusite.com/llms.txt) que oferece a sistemas de IA um índice curado do seu conteúdo mais relevante. A proposta foi publicada por Jeremy Howard, da Answer.AI, em 3 de setembro de 2024. O objetivo é ajudar modelos de linguagem no momento da inferência, porque janelas de contexto seriam pequenas demais para analisar sites inteiros e converter HTML cheio de navegação, anúncios e JavaScript em texto limpo seria impreciso.
Apesar do nome lembrar o robots.txt, o llms.txt não é uma diretiva ele não controla nem bloqueia acesso a nada. A intenção original mirava ambientes de desenvolvimento e documentação de APIs, onde um agente de IA precisa localizar rápido como usar uma biblioteca. O enquadramento de "visibilidade em IA" veio depois, colado pela indústria de SEO.
Se llms.txt não é um padrão, quem governa as regras?
O llms.txt é uma convenção de comunidade, sem respaldo do W3C, da IETF ou de qualquer corpo de padronização reconhecido. Não há mecanismo de validação oficial nem coalizão de plataformas comprometidas em consumi-lo. Isso é decisivo porque todo padrão web que vingou tinha um dono claro das regras. O schema.org se consolidou justamente por ter nascido como uma aliança entre Bing, Google, Yahoo e Yandex, com vocabulário e governança definidos. O llms.txt não tem esse arranjo, e por isso a adoção avança sem que ninguém garanta que o esforço será recompensado.
A própria origem da proposta reforça isso. Em um episódio recente do podcast Search Off the Record, o Search Advocate do Google Martin Splitt contou que conversou com uma das pessoas envolvidas na criação do llms.txt e que a intenção nunca foi facilitar a descoberta de conteúdo por buscadores ou modelos. A ideia era servir quando um sistema de IA já conhece o site e quer entender o que mais existe ali, e não funcionar como vitrine de descoberta. Um sistema não tem como confiar em um arquivo que o próprio dono do site escreve para se autopromover.
Quantos sites usam llms.txt
A publicação de arquivos llms.txt cresceu muito, mas o número de adoção engana. Levantamentos amplos convergem perto de 10%: a SE Ranking, analisando 300 mil domínios, encontrou uma taxa de 10,13%, e dados do HTTP Archive mostram cerca de 10% das páginas com o arquivo, em forte crescimento ano a ano. A Ahrefs, em uma base mais técnica de 137 mil domínios, chegou a 28%, percentual que ela própria trata como teto superior por causa do perfil dos clientes. O ponto é que ter o arquivo não significa que ele seja lido.
Há ainda uma armadilha metodológica que infla esses números. Detectar o arquivo por resposta HTTP 200 superestima a adoção real, porque muitos servidores devolvem 200 para qualquer caminho, gerando falsos positivos (soft 404). Estudos mais rigorosos validam se o conteúdo é markdown verdadeiro e descartam páginas de erro disfarçadas. Outro sinal revelador apareceu na SE Ranking: sites de tráfego médio e baixo adotam o llms.txt mais do que os sites autoritativos, o que sugere adoção movida por esperança de visibilidade, não por retorno comprovado.
Algum sistema de IA realmente lê o llms.txt?
Para busca e citação, praticamente nenhum. O estudo mais robusto até agora é o da Ahrefs, publicado em maio de 2026 sobre 137 mil domínios: 97% dos arquivos llms.txt não recebem nenhuma requisição. Entre cerca de 38 mil domínios com arquivos válidos, apenas cerca de 1.100 receberam algum tráfego. E quando há requisições, 96% vêm de bots, a maioria nem de IA, com bots de recuperação ligados a ChatGPT e Perplexity respondendo por apenas 1% do total.
Quem de fato consome o arquivo não é a busca com IA, e sim agentes de código e crawlers de treino. Na base da Ahrefs, os principais bots individuais foram o Claude-Code e o GPTBot, ligados a ferramentas de desenvolvimento. Outros experimentos chegam à mesma conclusão. A OtterlyAI monitorou 62.100 visitas de bots de IA em 90 dias e viu apenas 84 mirando o llms.txt, 0,1% do total, e depois removeu o item do seu checklist de auditoria GEO.
O efeito sobre citações também não aparece. O estudo da Trakkr cruzou 37.894 domínios e não encontrou nenhuma vantagem de citação para quem adota o arquivo. Mais revelador: entre os 50 domínios mais citados por sistemas de IA, apenas 6% têm um llms.txt. Os sites que já são bem citados não dependem dele, e a adoção aumenta justamente entre os que tentam alcançar visibilidade que ainda não têm.
O que o Google diz sobre o llms.txt
O Google não usa o llms.txt e não pretende usá-lo para busca. John Mueller afirmou em junho de 2025 que nenhum sistema de IA usava o arquivo e que isso era evidente nos logs de servidor. Ele comparou o llms.txt ao meta tag keywords, recurso há muito desacreditado e ignorado pelo buscador. Ele também desaconselhou criar páginas markdown paralelas só para bots e sugeriu aplicar noindex ao arquivo, já que ele pode ser indexado por engano e poluir os resultados de busca.
A posição virou orientação oficial. Em 15 de maio de 2026, o Google publicou um guia sobre otimização para recursos de IA generativa que lista o llms.txt em uma seção de mitos, entre as táticas que você não precisa, ao lado de fragmentar conteúdo em pedaços e reescrever texto especificamente para modelos. Gary Illyes e Amir Taboul confirmaram, no Search Central Live Deep Dive Asia Pacific, que o Google não está implementando o llms.txt. A razão técnica é simples: AI Overviews e AI Mode já puxam do mesmo índice usado pelo ranqueamento clássico.
A contradição do Lighthouse
O Google deu dois sinais opostos sobre o llms.txt na mesma semana. Dias após o guia de busca dizer para ignorar o arquivo, o Lighthouse 13.3 (lançado em 20 de maio de 2026) ganhou uma categoria experimental chamada Agentic Browsing, com uma auditoria que checa se o site fornece um llms.txt e sinaliza erros ao buscá-lo. A contradição é menos grave do que parece: a auditoria trata um llms.txt ausente como "não aplicável", e não como falha, e mede prontidão para agentes, não visibilidade em busca.
Mueller resolveu a aparente incoerência no mesmo dia. Segundo ele, o llms.txt não é feito para busca; é uma muleta temporária, talvez para economizar tokens, voltada a ferramentas de código que precisam interpretar documentação técnica. Para sites que não são de desenvolvedor, ele afirma que não faz sentido, e usa um exemplo direto: uma versão em markdown das especificações de um sapato não vai gerar mais vendas, só facilita a vida de concorrentes.
Quando um llms.txt faz sentido e quando é só trabalho
O llms.txt faz sentido em um cenário específico: documentação técnica e de APIs consumida por agentes de código. Nesse contexto, ferramentas como Claude Code e assistentes de desenvolvimento se beneficiam de uma versão markdown enxuta e econômica em tokens da referência. Para passar a auditoria Agentic Browsing do Lighthouse, criar o arquivo também funciona como uma vitória barata de dois minutos, desde que você não espere nenhum ganho de ranqueamento ou citação em troca.
Para a maioria dos sites, é só trabalho. E-commerce, sites institucionais e blogs comuns não têm uso real para o arquivo hoje. Pior, há riscos concretos. Um llms.txt curado à mão envelhece e passa a apontar para páginas que mudaram ou deixaram de existir. Por ser autodeclarado, é um vetor fácil de spam. E muita gente confunde a tática com publicar cópias markdown de todas as páginas, o que gera conteúdo duplicado em escala se esses arquivos forem indexáveis, competindo com as próprias páginas originais. O reflexo do noindex sugerido por Mueller existe justamente para conter parte desses efeitos.
llms.txt vs. robots.txt vs. sitemap vs. schema
Os quatro arquivos resolvem problemas diferentes e não se substituem. A tabela abaixo resume o que cada um controla, quem realmente o consome e seu status como padrão.
| Arquivo | O que faz | Quem usa de fato | Status |
|---|---|---|---|
| robots.txt | Define regras de acesso para crawlers | Todos os principais buscadores e crawlers de IA | Padrão consolidado (RFC 9309) |
| sitemap.xml | Lista URLs para indexação | Buscadores como Google e Bing | Protocolo amplamente adotado |
| schema.org | Adiciona metadados estruturados por página | Buscadores, para rich results e desambiguação | Padrão consolidado por várias empresas |
| llms.txt | Índice markdown curado para modelos | Quase só agentes de código e crawlers de treino | Proposta sem corpo de padronização |
Fontes: documentação oficial de cada protocolo; estudos de uso da Ahrefs e da Trakkr (2026).
Perguntas frequentes
O llms.txt ajuda a aparecer no ChatGPT ou no Gemini?
Não há evidência de que ajude. Nenhuma empresa de IA confirmou usar o llms.txt para escolher fontes ou gerar respostas, e estudos de citação não encontraram vantagem para quem adota o arquivo. A visibilidade nessas plataformas vem de conteúdo bem avaliado e de autoridade temática, não de um arquivo na raiz do site.
Preciso de llms.txt para ranquear nos AI Overviews?
Não. O Google declarou que os AI Overviews e o AI Mode usam o mesmo índice do ranqueamento clássico e listou o llms.txt entre as táticas que você não precisa. Para visibilidade nas superfícies de IA do Google, vale o SEO de sempre, com HTML normal e conteúdo de qualidade.
Qual a diferença entre llms.txt e robots.txt?
O robots.txt é uma diretiva consolidada que define o que crawlers podem ou não acessar, respeitada pelos principais bots. O llms.txt não controla nem bloqueia nada; é apenas um índice curado em markdown, sem corpo de padronização e com uso real quase nulo entre sistemas de busca com IA.
O Lighthouse reclamou que meu site não tem llms.txt. É problema?
Não é problema de busca. A auditoria Agentic Browsing do Lighthouse mede prontidão para agentes e trata o arquivo ausente como "não aplicável", e não como falha. O próprio Google diz que o llms.txt não é usado para ranqueamento, então a ausência dele não afeta sua visibilidade na busca.
Devo publicar uma versão markdown de cada página para a IA?
Não é recomendado para a maioria dos sites. Publicar cópias markdown de todas as páginas pode gerar conteúdo duplicado em escala e competir com as páginas originais. O Google desaconselha criar versões paralelas voltadas só para bots, já que os crawlers leem HTML sem dificuldade.
O llms.txt está morto?
Não está morto, mas vive em um limbo. A publicação do arquivo cresce, enquanto o consumo por sistemas de IA segue marginal e nenhuma grande plataforma se comprometeu a usá-lo. Tem valor real em um nicho, documentação técnica para agentes de código, e pouco efeito fora disso em junho de 2026.
Conclusão: foque no que já funciona
Em junho de 2026, a recomendação prática é não investir esforço em um arquivo voltado para máquina antes que ele tenha consumidores reais. A posição do Google vale para o ecossistema dele, e o cenário de agentes ainda não cristalizou nenhum padrão dominante, então qualquer aposta hoje é especulativa. O caminho seguro continua sendo HTML semântico, conteúdo original e boa saúde técnica, que servem tanto à busca tradicional quanto às superfícies de IA.
Se você quer saber o que os bots realmente fazem no seu site, a evidência está nos seus próprios logs de servidor, não em estudos de terceiros. Verificar quais agentes acessam quais arquivos é mais útil do que adotar uma tática pela esperança de que ela funcione. Para o tratamento de crawlers de IA por diretiva de fato, vale revisar a configuração do seu robots.txt para sistemas de IA