Blog

Blog

Por que você provavelmente não precisa de um llms.txt

Arquivos llms.txt simplesmente não fazem sentido do ponto de vista da descoberta por IAs ou por sistemas de buscas. Como o conteúdo é auto declarado, o sistema não pode apenas confiar no que você mesmo informa ali como critério de diferenciação entre sites. Você está basicamente dizendo "tenho o melhor site sobre tal assunto, comprem meus produtos". Adotá-lo não causa dano direto, mas para a maioria dos sites o retorno hoje é nulo.

O que é o llms.txt e qual problema ele resolve

O llms.txt é um arquivo markdown colocado na raiz do site (em seusite.com/llms.txt) que oferece a sistemas de IA um índice curado do seu conteúdo mais relevante. A proposta foi publicada por Jeremy Howard, da Answer.AI, em 3 de setembro de 2024. O objetivo é ajudar modelos de linguagem no momento da inferência, porque janelas de contexto seriam pequenas demais para analisar sites inteiros e converter HTML cheio de navegação, anúncios e JavaScript em texto limpo seria impreciso.

Apesar do nome lembrar o robots.txt, o llms.txt não é uma diretiva ele não controla nem bloqueia acesso a nada. A intenção original mirava ambientes de desenvolvimento e documentação de APIs, onde um agente de IA precisa localizar rápido como usar uma biblioteca. O enquadramento de "visibilidade em IA" veio depois, colado pela indústria de SEO.

Se llms.txt não é um padrão, quem governa as regras?

O llms.txt é uma convenção de comunidade, sem respaldo do W3C, da IETF ou de qualquer corpo de padronização reconhecido. Não há mecanismo de validação oficial nem coalizão de plataformas comprometidas em consumi-lo. Isso é decisivo porque todo padrão web que vingou tinha um dono claro das regras. O schema.org se consolidou justamente por ter nascido como uma aliança entre Bing, Google, Yahoo e Yandex, com vocabulário e governança definidos. O llms.txt não tem esse arranjo, e por isso a adoção avança sem que ninguém garanta que o esforço será recompensado.

A própria origem da proposta reforça isso. Em um episódio recente do podcast Search Off the Record, o Search Advocate do Google Martin Splitt contou que conversou com uma das pessoas envolvidas na criação do llms.txt e que a intenção nunca foi facilitar a descoberta de conteúdo por buscadores ou modelos. A ideia era servir quando um sistema de IA já conhece o site e quer entender o que mais existe ali, e não funcionar como vitrine de descoberta. Um sistema não tem como confiar em um arquivo que o próprio dono do site escreve para se autopromover.

Quantos sites usam llms.txt

A publicação de arquivos llms.txt cresceu muito, mas o número de adoção engana. Levantamentos amplos convergem perto de 10%: a SE Ranking, analisando 300 mil domínios, encontrou uma taxa de 10,13%, e dados do HTTP Archive mostram cerca de 10% das páginas com o arquivo, em forte crescimento ano a ano. A Ahrefs, em uma base mais técnica de 137 mil domínios, chegou a 28%, percentual que ela própria trata como teto superior por causa do perfil dos clientes. O ponto é que ter o arquivo não significa que ele seja lido.

Há ainda uma armadilha metodológica que infla esses números. Detectar o arquivo por resposta HTTP 200 superestima a adoção real, porque muitos servidores devolvem 200 para qualquer caminho, gerando falsos positivos (soft 404). Estudos mais rigorosos validam se o conteúdo é markdown verdadeiro e descartam páginas de erro disfarçadas. Outro sinal revelador apareceu na SE Ranking: sites de tráfego médio e baixo adotam o llms.txt mais do que os sites autoritativos, o que sugere adoção movida por esperança de visibilidade, não por retorno comprovado.

Algum sistema de IA realmente lê o llms.txt?

Para busca e citação, praticamente nenhum. O estudo mais robusto até agora é o da Ahrefs, publicado em maio de 2026 sobre 137 mil domínios: 97% dos arquivos llms.txt não recebem nenhuma requisição. Entre cerca de 38 mil domínios com arquivos válidos, apenas cerca de 1.100 receberam algum tráfego. E quando há requisições, 96% vêm de bots, a maioria nem de IA, com bots de recuperação ligados a ChatGPT e Perplexity respondendo por apenas 1% do total.

Quem de fato consome o arquivo não é a busca com IA, e sim agentes de código e crawlers de treino. Na base da Ahrefs, os principais bots individuais foram o Claude-Code e o GPTBot, ligados a ferramentas de desenvolvimento. Outros experimentos chegam à mesma conclusão. A OtterlyAI monitorou 62.100 visitas de bots de IA em 90 dias e viu apenas 84 mirando o llms.txt, 0,1% do total, e depois removeu o item do seu checklist de auditoria GEO.

O efeito sobre citações também não aparece. O estudo da Trakkr cruzou 37.894 domínios e não encontrou nenhuma vantagem de citação para quem adota o arquivo. Mais revelador: entre os 50 domínios mais citados por sistemas de IA, apenas 6% têm um llms.txt. Os sites que já são bem citados não dependem dele, e a adoção aumenta justamente entre os que tentam alcançar visibilidade que ainda não têm.

O que o Google diz sobre o llms.txt

O Google não usa o llms.txt e não pretende usá-lo para busca. John Mueller afirmou em junho de 2025 que nenhum sistema de IA usava o arquivo e que isso era evidente nos logs de servidor. Ele comparou o llms.txt ao meta tag keywords, recurso há muito desacreditado e ignorado pelo buscador. Ele também desaconselhou criar páginas markdown paralelas só para bots e sugeriu aplicar noindex ao arquivo, já que ele pode ser indexado por engano e poluir os resultados de busca.

A posição virou orientação oficial. Em 15 de maio de 2026, o Google publicou um guia sobre otimização para recursos de IA generativa que lista o llms.txt em uma seção de mitos, entre as táticas que você não precisa, ao lado de fragmentar conteúdo em pedaços e reescrever texto especificamente para modelos. Gary Illyes e Amir Taboul confirmaram, no Search Central Live Deep Dive Asia Pacific, que o Google não está implementando o llms.txt. A razão técnica é simples: AI Overviews e AI Mode já puxam do mesmo índice usado pelo ranqueamento clássico.

A contradição do Lighthouse

O Google deu dois sinais opostos sobre o llms.txt na mesma semana. Dias após o guia de busca dizer para ignorar o arquivo, o Lighthouse 13.3 (lançado em 20 de maio de 2026) ganhou uma categoria experimental chamada Agentic Browsing, com uma auditoria que checa se o site fornece um llms.txt e sinaliza erros ao buscá-lo. A contradição é menos grave do que parece: a auditoria trata um llms.txt ausente como "não aplicável", e não como falha, e mede prontidão para agentes, não visibilidade em busca.

Mueller resolveu a aparente incoerência no mesmo dia. Segundo ele, o llms.txt não é feito para busca; é uma muleta temporária, talvez para economizar tokens, voltada a ferramentas de código que precisam interpretar documentação técnica. Para sites que não são de desenvolvedor, ele afirma que não faz sentido, e usa um exemplo direto: uma versão em markdown das especificações de um sapato não vai gerar mais vendas, só facilita a vida de concorrentes.

Quando um llms.txt faz sentido e quando é só trabalho

O llms.txt faz sentido em um cenário específico: documentação técnica e de APIs consumida por agentes de código. Nesse contexto, ferramentas como Claude Code e assistentes de desenvolvimento se beneficiam de uma versão markdown enxuta e econômica em tokens da referência. Para passar a auditoria Agentic Browsing do Lighthouse, criar o arquivo também funciona como uma vitória barata de dois minutos, desde que você não espere nenhum ganho de ranqueamento ou citação em troca.

Para a maioria dos sites, é só trabalho. E-commerce, sites institucionais e blogs comuns não têm uso real para o arquivo hoje. Pior, há riscos concretos. Um llms.txt curado à mão envelhece e passa a apontar para páginas que mudaram ou deixaram de existir. Por ser autodeclarado, é um vetor fácil de spam. E muita gente confunde a tática com publicar cópias markdown de todas as páginas, o que gera conteúdo duplicado em escala se esses arquivos forem indexáveis, competindo com as próprias páginas originais. O reflexo do noindex sugerido por Mueller existe justamente para conter parte desses efeitos.

llms.txt vs. robots.txt vs. sitemap vs. schema

Os quatro arquivos resolvem problemas diferentes e não se substituem. A tabela abaixo resume o que cada um controla, quem realmente o consome e seu status como padrão.

ArquivoO que fazQuem usa de fatoStatus
robots.txtDefine regras de acesso para crawlersTodos os principais buscadores e crawlers de IAPadrão consolidado (RFC 9309)
sitemap.xmlLista URLs para indexaçãoBuscadores como Google e BingProtocolo amplamente adotado
schema.orgAdiciona metadados estruturados por páginaBuscadores, para rich results e desambiguaçãoPadrão consolidado por várias empresas
llms.txtÍndice markdown curado para modelosQuase só agentes de código e crawlers de treinoProposta sem corpo de padronização

Fontes: documentação oficial de cada protocolo; estudos de uso da Ahrefs e da Trakkr (2026).

Perguntas frequentes

O llms.txt ajuda a aparecer no ChatGPT ou no Gemini?

Não há evidência de que ajude. Nenhuma empresa de IA confirmou usar o llms.txt para escolher fontes ou gerar respostas, e estudos de citação não encontraram vantagem para quem adota o arquivo. A visibilidade nessas plataformas vem de conteúdo bem avaliado e de autoridade temática, não de um arquivo na raiz do site.

Preciso de llms.txt para ranquear nos AI Overviews?

Não. O Google declarou que os AI Overviews e o AI Mode usam o mesmo índice do ranqueamento clássico e listou o llms.txt entre as táticas que você não precisa. Para visibilidade nas superfícies de IA do Google, vale o SEO de sempre, com HTML normal e conteúdo de qualidade.

Qual a diferença entre llms.txt e robots.txt?

O robots.txt é uma diretiva consolidada que define o que crawlers podem ou não acessar, respeitada pelos principais bots. O llms.txt não controla nem bloqueia nada; é apenas um índice curado em markdown, sem corpo de padronização e com uso real quase nulo entre sistemas de busca com IA.

O Lighthouse reclamou que meu site não tem llms.txt. É problema?

Não é problema de busca. A auditoria Agentic Browsing do Lighthouse mede prontidão para agentes e trata o arquivo ausente como "não aplicável", e não como falha. O próprio Google diz que o llms.txt não é usado para ranqueamento, então a ausência dele não afeta sua visibilidade na busca.

Devo publicar uma versão markdown de cada página para a IA?

Não é recomendado para a maioria dos sites. Publicar cópias markdown de todas as páginas pode gerar conteúdo duplicado em escala e competir com as páginas originais. O Google desaconselha criar versões paralelas voltadas só para bots, já que os crawlers leem HTML sem dificuldade.

O llms.txt está morto?

Não está morto, mas vive em um limbo. A publicação do arquivo cresce, enquanto o consumo por sistemas de IA segue marginal e nenhuma grande plataforma se comprometeu a usá-lo. Tem valor real em um nicho, documentação técnica para agentes de código, e pouco efeito fora disso em junho de 2026.

Conclusão: foque no que já funciona

Em junho de 2026, a recomendação prática é não investir esforço em um arquivo voltado para máquina antes que ele tenha consumidores reais. A posição do Google vale para o ecossistema dele, e o cenário de agentes ainda não cristalizou nenhum padrão dominante, então qualquer aposta hoje é especulativa. O caminho seguro continua sendo HTML semântico, conteúdo original e boa saúde técnica, que servem tanto à busca tradicional quanto às superfícies de IA.

Se você quer saber o que os bots realmente fazem no seu site, a evidência está nos seus próprios logs de servidor, não em estudos de terceiros. Verificar quais agentes acessam quais arquivos é mais útil do que adotar uma tática pela esperança de que ela funcione. Para o tratamento de crawlers de IA por diretiva de fato, vale revisar a configuração do seu robots.txt para sistemas de IA

Continue lendo

SEO Técnico Schema e entidades para IAs 11 min de leitura SEO Técnico Análise de SEO: o que verificar e como fazer um diagnóstico 12 min de leitura