O que é crawler: como o Googlebot rastreia e indexa seu site

Seu site pode ter o melhor conteúdo do mercado. Pode ter textos bem escritos, imagens otimizadas e uma estrutura impecável. Mas se o Googlebot não conseguir rastrear suas páginas, nada disso importa — porque o Google simplesmente não vai saber que esse conteúdo existe.

Entender o que é um crawler, como ele funciona e o que pode impedir que ele acesse seu site é conhecimento fundamental para qualquer pessoa que leva SEO a sério. Não é um tema apenas para desenvolvedores — é algo que todo dono de site precisa entender em pelo menos um nível básico.

O que é um crawler — definição direta

Um crawler, também chamado de spider, bot ou robô de busca, é um programa automatizado que percorre a web seguindo links de página em página, lendo o conteúdo de URLs e registrando essas informações em um banco de dados. O termo vem de “crawl” — rastejar — que descreve bem a forma como esses bots se movem pela web: de link em link, de página em página, sem parar.

Cada mecanismo de busca tem seu próprio crawler. O do Google se chama Googlebot. O do Bing se chama Bingbot. Quando falamos de SEO no mercado brasileiro, estamos falando quase sempre do Googlebot — mas os princípios de funcionamento são os mesmos para todos.

O processo que o Googlebot executa tem três etapas que se encadeiam: rastreamento, indexação e ranqueamento. O crawler executa a primeira etapa. Sem rastreamento bem-sucedido, as outras duas não acontecem.

Como funciona o rastreamento do Googlebot

O Googlebot começa com uma lista de URLs conhecidas — a “fila de rastreamento” — e vai adicionando novas URLs à medida que encontra links em cada página visitada. O processo: acessa uma URL da fila, lê o HTML da página, registra o conteúdo e metadados (title, meta description, headings, texto visível, imagens com alt text), identifica todos os links na página e os adiciona à fila, e segue para a próxima URL. Esse ciclo acontece continuamente, em escala gigantesca — bilhões de páginas por dia no mundo inteiro.

Nem todas as páginas são rastreadas com a mesma frequência. Páginas de sites grandes e autoritativos, que publicam conteúdo frequentemente, são rastreadas muito mais vezes por semana do que páginas de sites pequenos com conteúdo que raramente muda. O Search Console mostra, na aba Rastreamento, quantas páginas foram rastreadas por dia nas últimas semanas.

Crawl budget — o orçamento de rastreamento

Crawl budget é o limite de recursos que o Googlebot vai dedicar ao rastreamento do seu site em um determinado período. Para a maioria dos sites pequenos e médios, não é uma preocupação crítica. Onde se torna relevante é em sites com muitas URLs: e-commerces com centenas de páginas de produto, portais de notícias, ou qualquer site que gera URLs em grande quantidade via filtros ou navegação facetada.

Quando o crawl budget é desperdiçado com páginas sem valor — URLs de filtros de e-commerce que geram combinações infinitas, páginas de busca interna, URLs com parâmetros de campanha que duplicam conteúdo — o Googlebot pode gastar todo o orçamento nessas páginas irrelevantes e deixar de rastrear páginas importantes. O resultado é que conteúdo novo ou otimizado demora muito mais para ser indexado.

Como otimizar: bloqueie via robots.txt as URLs que não devem ser rastreadas (carrinho, login, busca interna, parâmetros de campanha). Use o atributo canonical para indicar ao Google a versão principal quando há URLs similares. Corrija erros 404 e redirecionamentos em cadeia que gastam crawl budget sem indexar nada útil.

O que pode impedir o Googlebot de rastrear seu site

Bloqueio no arquivo robots.txt

O robots.txt é um arquivo de texto na raiz do site que instrui os crawlers sobre quais URLs podem ou não ser rastreadas. Um robots.txt mal configurado pode bloquear o Googlebot de rastrear partes importantes — ou até o site inteiro. Um erro clássico: durante o desenvolvimento, a agência bloqueia todo o rastreamento. Quando o site é lançado, o bloqueio não é removido. Verifique o seu acessando seusite.com.br/robots.txt. Se você ver “Disallow: /” sem exceções para o Googlebot, seu site inteiro está bloqueado.

Tag noindex mal aplicada

A tag meta robots com o valor “noindex” instrui o Google a não indexar aquela página. Aplicada por engano em páginas importantes, impede que elas apareçam no Google. Um cenário real: o plugin de SEO está configurado para marcar todas as páginas de uma determinada categoria como noindex, mas algumas páginas importantes caem nessa categoria. O Googlebot rastreia essas páginas mas não as indexa — e elas somem dos resultados.

Velocidade de carregamento muito baixa

O Googlebot tem um tempo limitado para carregar cada página. Se o servidor demorar muito para responder, o bot pode desistir antes de carregar o conteúdo. Sites muito lentos têm menos páginas rastreadas por sessão — o bot visita menos páginas antes de usar todo o tempo alocado para o site. Além disso, o Google considera a velocidade como fator de ranqueamento via Core Web Vitals.

Conteúdo renderizado por JavaScript sem SSR

Sites construídos com React, Vue ou Angular que dependem de renderização no cliente para mostrar o conteúdo principal têm um problema: no rastreamento imediato, o Googlebot pode ver uma página quase vazia. O Google eventualmente renderiza essas páginas, mas o processo leva mais tempo e pode não ser perfeito. A solução é usar Server-Side Rendering (SSR) ou Static Site Generation (SSG) — que entregam o HTML já com o conteúdo renderizado para o Googlebot ler imediatamente.

Erros de servidor (5xx)

Erros 500 ou 503 persistentes impedem o Googlebot de acessar a página. Se ocorrem frequentemente, o Google vai gradualmente reduzir a frequência de rastreamento e, eventualmente, remover as URLs do índice por considerá-las inativas. O Search Console mostra quais URLs estão retornando erros de servidor e com qual frequência.

Como ver o rastreamento do seu site no Search Console

Relatório de cobertura

Mostra quais URLs foram indexadas com sucesso, quais foram rastreadas mas não indexadas (e por quê), quais estão com erros e quais foram explicitamente excluídas. É o ponto de partida para entender se o Googlebot está indexando o que você quer que ele indexe.

Relatório de inspeção de URL

Permite verificar como o Googlebot vê uma URL específica: se foi rastreada, quando foi rastreada pela última vez, se está indexada, se há erros e como o Google renderizou a página. É indispensável para diagnosticar por que uma página específica não está aparecendo no Google.

Solicitação de indexação

Para páginas novas ou recém-atualizadas, é possível solicitar indexação prioritária diretamente no Search Console. Não garante indexação imediata, mas sinaliza ao Google que há conteúdo novo para ser avaliado.

Crawler e sitemap — a conexão importante

O sitemap XML é um arquivo que lista todas as URLs do seu site que você quer que o Google indexe. Funciona como um mapa que facilita o trabalho do Googlebot — especialmente para páginas com poucos links internos. Um sitemap bem estruturado inclui apenas URLs que você quer indexar (sem admin, parâmetros, filtros, páginas noindex), tem as datas de última modificação atualizadas, e é enviado ao Google Search Console para monitoramento.

Para sites WordPress, o Yoast SEO gera e mantém o sitemap automaticamente. O URL padrão é seusite.com.br/sitemap_index.xml — verifique se está acessível e se foi enviado ao Search Console.

Web crawling e SEO técnico — a relação direta

O rastreamento é a fundação do SEO técnico. Sem rastreamento bem-sucedido, nenhum outro esforço de SEO gera resultado. A sequência de causa e efeito é linear: o Googlebot precisa rastrear a página para poder indexá-la, e precisa indexá-la para poder ranqueá-la. Um problema em qualquer etapa interrompe todo o processo. Um site com conteúdo excelente mas com problemas graves de rastreamento simplesmente não existe para o Google.

As ferramentas de auditoria técnica como o Screaming Frog simulam o comportamento de um crawler — rastreiam todo o site da mesma forma que o Googlebot faria e revelam problemas invisíveis sem essa análise. É por isso que um profissional de SEO técnico sempre começa o diagnóstico com uma auditoria de rastreamento completa.

Crawling e indexação — qual a diferença

Rastrear e indexar são etapas diferentes e sequenciais. Rastreamento é o ato de o Googlebot visitar uma URL e ler o conteúdo. Indexação é o ato de o Google decidir adicionar aquela URL ao índice. O rastreamento precede a indexação, mas não garante ela — o Google rastreia muito mais páginas do que indexa. Páginas com conteúdo duplicado, de qualidade muito baixa, com tag noindex ou com sinais de baixa relevância são rastreadas mas não indexadas.

Para diagnosticar: use a ferramenta de inspeção de URL no Search Console. Se mostrar “URL is on Google”, a página está indexada. Se mostrar “URL is not on Google” com a razão, você tem o diagnóstico exato do problema.

Por que alguns sites são rastreados mais rápido que outros

Autoridade do domínio é o fator mais determinante. Sites com Domain Rating alto e histórico longo são tratados como mais importantes e rastreados com muito mais frequência. Um site novo pode levar semanas para ter suas páginas rastreadas. Um portal de notícias de alta autoridade tem suas novas publicações rastreadas em minutos.

Frequência de atualização também importa — o Googlebot aprende padrões e volta com a frequência que o site demonstrou publicar. Qualidade das respostas do servidor também afeta: servidores rápidos e estáveis recebem visitas mais frequentes do Googlebot.

Como o crawler descobre páginas novas

O Googlebot descobre novas páginas por três caminhos: links (internos ou externos — é por isso que links internos são tão importantes para garantir que o bot navegue por todo o site), sitemap XML (uma lista explícita de URLs para rastrear), e solicitação direta via Search Console.

A implicação prática: qualquer página nova publicada deve ter pelo menos um link interno apontando para ela e deve estar no sitemap. Páginas “órfãs” — sem links internos e fora do sitemap — podem levar meses para ser descobertas organicamente pelo Googlebot.

Rastreamento mobile-first — o que significa na prática

Desde 2019, o Google usa o Mobile-First Indexing como padrão: o Googlebot rastreia e indexa a versão mobile do site como versão principal. Se a versão mobile tem menos conteúdo que a desktop, o Google indexa a versão reduzida. Se a versão mobile carrega mais lentamente, as métricas de Core Web Vitals avaliadas são as do mobile. Para a maioria dos sites responsivos modernos, isso não é um problema. O problema surge em sites mais antigos com versões separadas para mobile e desktop com conteúdo diferente.

Como usar o Screaming Frog para auditar o rastreamento

O Screaming Frog SEO Spider é a ferramenta de auditoria de rastreamento mais usada por profissionais de SEO. Funciona simulando o comportamento do Googlebot: rastreia todo o site, segue links, lê o HTML de cada página e compila um relatório detalhado. Identifica: páginas com erros 404 e 5xx, redirecionamentos em cadeia, páginas sem title tag ou com title duplicado, imagens sem alt text, links internos quebrados, páginas com noindex ou canonical incorreto, e velocidade de carregamento de cada URL.

Na MadWeb usamos o Screaming Frog em todas as auditorias técnicas — combinado com dados reais do Google Search Console — para ter uma visão completa, precisa e acionável de como o Googlebot está interagindo com cada site que auditamos e gerenciamos.


Perguntas frequentes sobre crawlers

Com que frequência o Googlebot rastreia meu site?

Depende da autoridade do domínio e da frequência com que o conteúdo é atualizado. Sites grandes e de alta autoridade são rastreados com muito mais frequência do que sites pequenos. Você pode ver a frequência de rastreamento no Search Console, em Configurações — Rastreamento.

Por que minha página nova não aparece no Google depois de uma semana?

Pode ser rastreamento ainda não realizado (especialmente se a página tem poucos links internos), indexação pendente mesmo após rastreamento, ou problema técnico como noindex acidental ou URL bloqueada no robots.txt. Use a ferramenta de inspeção de URL no Search Console para diagnosticar o caso específico.

O Googlebot visita páginas que estão atrás de login?

Não. O Googlebot não tem credenciais para fazer login em sites e não consegue rastrear conteúdo protegido por autenticação. Todo conteúdo que você quer que o Google indexe precisa ser publicamente acessível.

Posso pedir para o Google rastrear meu site mais rápido?

Você pode solicitar indexação de páginas específicas pelo Search Console e enviar o sitemap para sinalizar conteúdo novo. O Google também permite ajustar a velocidade de rastreamento nas configurações do Search Console — mas raramente faz sentido reduzir a velocidade a não ser que o servidor esteja sendo sobrecarregado pelo Googlebot.


Na MadWeb a auditoria técnica de SEO inclui análise completa do rastreamento — identificando URLs bloqueadas incorretamente, problemas de crawl budget e erros que impedem a indexação de páginas importantes. O diagnóstico inicial é totalmente gratuito e sem nenhum compromisso de contratação posterior.

Se quiser entender como o Googlebot está rastreando o seu site e quais problemas estão limitando a indexação das suas páginas mais importantes, fale com a gente.