en , ,

¿Qué es Semalt y por qué bloquearlo?

Semalt un crawler molesto y perjudicial para tu Web

Revisando lo que buscan dentro de la web, he podido darme cuenta que en diferentes ocasiones el término a buscar es «semalt», «semalt.com», lo cual me ha hecho indagar sobre el asunto al tratarse de un crawler que puede ocasionar malestar en tu Web.

Uno de los grandes problemas del mundo del Marketing Online es el spam. Todos los que tenemos hemos sufrido en alguna ocasión el spam constante, ya sea en comentarios, en tráfico de referencia o en términos de búsqueda orgánica.

Vamos a ver un poco sobre qué es Semalt, por qué hay tanta desconfianza sobre esto y como poder evitar que el crawler pase por tu sitio web.

¿Qué es Semalt?…

Antes de saber que es Semalt, debemos saber lo que es un Crawler (conocido también por el nombre bot, o araña web). Un Crawler, no es más que un bot que inspecciona todo internet periódicamente con tal de ir almacenando o indexando la información de forma ordenada.

Por ejemplo, Google indexa las webs en los resultados de búsqueda gracias a que tiene bots que van recorriendo todas las páginas que se van encontrando y según los criterios de diferentes algoritmos los sitios webs quedan indexados en una posición u otra por diferentes palabras clave (keywords).

Semalt es un crawler que a diferencia de los bots normales sí ejecuta javascript y por lo tanto es capaz de «emular» el comportamiento humano en una página, mostrando en nuestro estadísticas resultados no deseados.

¿Cómo bloqueamos el Spam dirigido a nuestra Web?…

Existen diferentes formas para bloquear el spam, a través de los propios filtros de Analytics, mediante una casilla de verifiación de bot en GA y por medio del fichero Htaccess en nuestro servidor.

Bloquear a través de los filtros de Google Analytics…

Desde el propio Google Analytics podemos emplear una función para que no nos aparezca el tráfico que proviene de esas webs o de las búsquedas anteriormente mencionadas.

  1. Debemos ir a la pestaña Administrador de Analytics y luego ir a filtros.
  2. Crear un filtro nuevo. Antes debemos añadir el nombre del filtro, por ejemplo SEMALT, seleccionamos el tipo de filtro como personalizado. En las diferentes opciones que nos da Analytics marcaremos la que ponga excluir y escribir en el patrón del filtro: ^semalt.semalt.com$ .Para bloquear el tráfico de referencia hemos de seleccionar campo de filtro referencia y en patrón debemos poner: .semalt.

Filtro Semalt

Bloquear a través del archivo .htacces…

Desde mi punto de vista y aunque es algo más complicado hacerlo, para mí es la forma más eficiente de asegurar el bloqueo, aunque no estar familiarizado con este tipo de operaciones puede complicarnos la tarea.

Debes conocer lo es que es el archivo .htaccess antes de llevar a cabo la operación: un archivo.htaccess tiene la función de  especificar ciertas acciones relacionadas comúnmente con la seguridad de la web. El htaccess  se suele usar para reescribir URLs en otras más simples y permiten bloquear a bots por su dirección IP y/o dominio.

Añade las siguientes líneas de código dentro de .htaccess y vuelve a subirlo.

# Bloquear tráfico falso...
RewriteEngine on
Options +FollowSymlinks
# Bloquea todos los referidos desde http y https de semalt.com» así como todos los subdominios.
RewriteCond %{HTTP_REFERER} ^https?://([^.]+.)*semalt.com [NC,OR]
# Bloquea todos los referidos desde http y https de «kambasoft.com» así como todos los subdominios.
RewriteCond %{HTTP_REFERER} ^https?://([^.]+.)*kambasoft.com [NC]
RewriteRule ^(.*)$ http://semalt.com/ [L]
# # Bloquea todos los referidos desde http y https de semalt.com» así como todos los subdominios.
RewriteCond %{HTTP_REFERER} ^https?://([^.]+.)*semalt.semalt.com [NC,OR]
# block visitors referred from semalt.com
RewriteEngine On
RewriteCond %{HTTP_REFERER} semalt.com [NC]
RewriteRule .* – [F]
# Fin bloque semalt y kambasoft
# Bloquear referidos de botones spam
RewriteEngine On
RewriteCond %{HTTP_REFERER} buttons-for-website.com
RewriteRule ^.* – [F,L]
# Fin bloqueo by verasoul.com

Bloquear Semalt y otros crawlers por el método fácil…

Es la opción más sencilla de todas, aunque no siempre es capaz de bloquear a todos los bots. En este caso volveremos a usar Analytics.

  1. Vamos al administrador de la página seleccionada.
  2. Entramos en ver configuración (tercera columna) y marcamos la opción que dice: Excluir todas las visitas de robots y de arañas conocidos.

Informar

Comentarios

Deja una respuesta

      Grooming

      Qué es el Grooming y cómo hacerle frente

      Twitter Blue. El Twitter de pago

      Twitter Blue. El Twitter de pago