Scrapers, los ladrones de páginas de internet

Algunos lo llaman robo, otros lo definen como la recopilación legítima de información relacionada con los negocios, pero al parecer todos lo están haciendo.

Screen scraping es un término acuñado en inglés que, en ese idioma, suena como a lo que se le haría a los vidrios de un auto cubiertos de escarcha en una mañana muy fría. Pero a lo que se refiere en internet es a copiar todos los datos que contiene un sitio web.

“Todas las empresas lo hacen, y si te dicen que no, están mintiendo”, dice Francis Irving, director de Scraper Wiki, una compañía que diseña herramientas que ayudan a diversas organizaciones a recabar y organizar información de sus competidores.

Para copiar algún archivo en una computadora, el texto se subraya con el ratón o con el teclado usando, por ejemplo, “Control+C”. Pero copiar un sitio web es más complicado debido a la manera en la que se disponen y almacenan los datos.

Generalmente, se trata de un mecanismo informático intensivo que implica visitar la página de internet en múltiples ocasiones para obtener todos los dígitos y caracteres que se encuentran allí.

Recursos dilapidados

Si el contenido cambia con frecuencia, los scrapers (que realizan el procedimiento descrito con anterioridad) tienen que revisar el sitio web con más regularidad para garantizar que tienen todos los datos.

“Hasta un 40% de las visitas que reciben las páginas de internet de nuestros clientes son scrapers“, explica Mathias Elvang, director de la empresa de seguridad Sentor, que elabora herramientas para impedir el trabajo de los programas informáticos que se dedican a este tema.

“Pueden invertir mucho dinero en infraestructura que ayuda a estos programas en el trabajo que hacen”, afirma Elvang.

Y ese es el problema. En vez de concentrarse en sus clientes, los recursos tecnológicos de una empresa se destinan a ayudar a programas computarizados que no tienen la menor intención de gastar dinero.

Pérdida de datos

“Todas las empresas lo hacen (screen scraping) y si te dicen que no, están mintiendo”

Francis Irving, director de Scraper Wiki

Lo que es peor es que es muy probable que esos scrapers trabajen para tus rivales, según Mike Gaffney, exdirector de seguridad informática en Ladbrokes (una compañía británica de apuestas), quien pasó una buena parte de su tiempo en la casa de apuestas combatiendo a los scrapers.

“Ladbrokes bloqueaba alrededor de un millón de direcciones IP (la identificación de una computadora) diariamente”, cuenta, describiendo la dimensión de los ataques de los scrapers.

“Muchos -prosigue- estaban controlados por rivales inescrupulosos que estaban fuera del Reino Unido y que no querían pagar por la recopilación de datos relacionados con las apuestas que ofrece la empresa”.

Así que obtenían la información gratis a través de scrapers y luego la fusionaban con datos similares obtenidos de la misma manera para darles a sus usuarios un compendio de las apuestas que ofrecían casas dedicadas al tema.

“Es importante evitar que la competencia se entere de tus tarifas, pero es información disponible para los apostadores. La clave es bloquear a los scrapers pero permitir el acceso a quienes realmente quieren apostar”, añade Gaffney.

Fuente: (BBC)