¿Qué son estos bots?

Son un tipo de software utilizado por los motores de búsqueda para eliminar contenido nuevo de Internet para fines de indexación.

Realizan las siguientes tareas:
Visita las páginas web que has vinculado
Compruebe su código HTML para errores
Guardan las páginas web a las que se vincula y ven qué páginas web enlazan a su contenido.
Ellos indexan tu contenido

Sin embargo, algunos bots son maliciosos y buscan en su sitio direcciones de correo electrónico y formularios que generalmente se usan para enviarle mensajes no deseados o correo no deseado. Otros incluso buscan lagunas de seguridad en su código.

¿Qué se necesita para bloquear los rastreadores web?

Antes de usar el archivo .htaccess, debe verificar lo siguiente:

1. Su sitio debe estar ejecutándose en un servidor Apache. Hoy en día, incluso las empresas de alojamiento web medio decentes en su trabajo, le dan acceso al archivo requerido.

2. Debería tener acceso a los registros de servidor sin procesar de su sitio web para poder localizar qué bots han estado visitando sus páginas web.

Tenga en cuenta que no hay forma de que pueda bloquear todos los robots dañinos a menos que los bloquee, incluso aquellos que considere útiles. Cada día aparecen nuevos bots y se modifican los más antiguos. La forma más eficiente es proteger su código y dificultar que los robots lo envíen por correo no deseado.

Identificando bots

Los bots pueden ser identificados por la dirección IP o por su “Cadena de agente de usuario”, que envían en los encabezados HTTP. Por ejemplo, Google utiliza “Googlebot”.

Es posible que necesite esta lista con 302 bots si ya tiene el nombre del bot que le gustaría mantener alejado usando .htaccess

Otra forma es descargar todos los archivos de registro del servidor y abrirlos con un editor de texto. Su ubicación en el servidor puede cambiar dependiendo de la configuración de su servidor. Si no puede encontrarlos, busque la ayuda de su proveedor de alojamiento web.

Si sabe qué página visitó, o el momento de la visita, es más fácil venir con un bot no deseado. Puedes buscar el archivo de registro con estos parámetros.

Una vez, has notado qué bots necesitas bloquear; luego puede incluirlos en el archivo .htaccess. Tenga en cuenta que bloquear el bot no es suficiente para detenerlo. Puede volver con un nuevo IP o nombre.

Como bloquearlos

Descargue una copia del archivo .htaccess. Hacer copias de seguridad si es necesario.

Método 1: bloqueo por IP

Este fragmento de código bloquea el bot usando la dirección IP 197.0.0.1

Orden Denegar, Permitir

Negar desde 197.0.0.1

La primera línea significa que el servidor bloqueará todas las solicitudes que coincidan con los patrones que ha especificado y permitirá todos los demás.

La segunda línea le dice al servidor que emita una página 403: prohibida

Método 2: Bloqueo por agentes de usuario

La forma más fácil es usar el motor de reescritura de Apache.

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. – [F, L]

La primera línea asegura que el módulo de reescritura está habilitado. La línea dos es la condición a la que se aplica la regla. La “F” en la línea 4 le dice al servidor que devuelva un 403: Prohibido, mientras que la “L” significa que esta es la última regla.

Luego, cargará el archivo .htaccess a su servidor y sobrescribirá el existente. Con el tiempo, necesitarás actualizar la IP del bot. En caso de que cometa un error, simplemente cargue la copia de seguridad que realizó.

Dejar respuesta

Please enter your comment!
Please enter your name here