Contents
Introducción
En el entorno actual del marketing digital y la optimización para motores de búsqueda (SEO), controlar qué páginas rastrean los bots y cómo lo hacen es fundamental. La etiqueta meta robots y los encabezados HTTP X-Robots-Tag ofrecen mecanismos precisos para indicar a los rastreadores de buscadores cómo indexar y seguir los enlaces de tu sitio.
1. ¿Qué es la etiqueta quotmeta robotsquot
La etiqueta ltmeta name=robots ... /gt
se coloca dentro de la sección ltheadgt
de tu página HTML y permite especificar directivas de indexación y rastreo:
Los principales atributos son:
- index / noindex: Permite o deniega la indexación de la página.
- follow / nofollow: Permite o deniega que se sigan los enlaces de la página.
- noarchive: Evita que se guarde una copia en la caché del buscador.
- nosnippet: Impide mostrar fragmentos de texto en los resultados.
- noimageindex: Bloquea la indexación de imágenes incluidas en la página.
- notranslate: Evita la traducción automática del contenido.
- unavailable_after: Fecha tras la cual la página se considera no disponible.
2. Sintaxis y etiquetas específicas para buscadores
Además del meta robots genérico, puedes definir directivas específicas para determinados bots:
Etiqueta | Bot objetivo | Ejemplo |
---|---|---|
robots | Todos | ltmeta name=robots content=index,follow /gt |
googlebot | ltmeta name=googlebot content=noimageindex /gt | |
bingbot | Bing | ltmeta name=bingbot content=nosnippet /gt |
3. Casos de uso comunes
3.1. Páginas con contenido duplicado
Cuando tienes versiones print-friendly o filtros que generan URLs distintas pero con contenidos similares, usa noindex, follow
para evitar duplicados en el índice:
3.2. Directorios o secciones privadas
Para áreas de administración o contenido exclusivo:
3.3. Control de caché y fragmentos
Si no deseas que tu contenido aparezca en la caché o en fragmentos especiales:
- Noarchive:
- Nosnippet:
4. Robots.txt: Control a nivel de servidor
El archivo robots.txt permite bloquear rutas completas antes de que el bot llegue a rastrearlas. Se ubica en /robots.txt
:
Disallow: /admin/
Disallow: /private-data/
Allow: /public/
Para más detalles, consulta la documentación oficial de Google sobre robots.txt.
5. X-Robots-Tag: Metaetiquetas vía cabecera HTTP
En entornos donde no puedes modificar HTML (por ejemplo, con recursos PDF o imágenes), configura el encabezado HTTP:
Content-Type: application/pdf
X-Robots-Tag: noindex, nofollow
Esta técnica se recomienda para controlar la indexación de assets o archivos estáticos.
6. Herramientas y prácticas recomendadas
- Search Console de Google: Verifica qué páginas están indexadas y errores de rastreo.
- Robots.txt Tester: Comprueba en tiempo real la validez de tu archivo
robots.txt
. - Auditorías periódicas: Usa herramientas como PageSpeed Insights o Bing Webmaster Tools para identificar bloqueos no deseados.
- Mapas de sitio (sitemaps): Incluye solo URLs relevantes mediante
lturlgt
en tu sitemap XML. - Verifica enlaces internos: Asegúrate de que los enlaces en páginas
noindex
aún puedan transmitirse mediantefollow
si conviene.
7. Conclusión
Implementar etiquetas meta robots, archivos robots.txt y encabezados X-Robots-Tag de manera coherente es crítico para:
- Maximizar tu presupuesto de rastreo (crawl budget).
- Evitar contenido duplicado y proteger secciones privadas.
- Controlar la visibilidad de fragmentos y copias en caché.
Una estrategia bien definida no solo mejora la eficiencia de los bots, sino que también fortalece el SEO y la experiencia de usuario. ¡Empieza hoy a auditar tus meta robots y lleva tu sitio web al siguiente nivel!
|
Acepto donaciones de BAT's mediante el navegador Brave 🙂 |