Dirty data, una pandemia en la era de los grandes volúmenes de datos

  • Big Data

El 25% de la información que poseen las organizaciones podrían ser datos falsos, según un informe de la compañía Hocelot. Esto, en la era del Big Data, puede ocasionar incluso pérdidas de ingresos.

El Big Data, que consiste en la gestión y análisis de millones de datos, tiene como pilares fundamentales los conceptos de volumen, velocidad y variedad. Por tanto, estas plataformas de uso empresarial se centran en analizar y gestionar un mayor volumen y variedad de datos a una velocidad cada vez más mayor.

Quizá te interese...

Por una Transformación Digital segura (IT Webinar)  

Cómo debe ser el Centro de Datos de Nueva Generación

Cómo mejorar la analítica de tu banco digital y optimizar la experiencia de usuario

7 sugerencias para mejorar la carga de tu web o app

Cómo superar los desafíos de TI en las pequeñas empresas

La empresa digital: transformando las TI con nuevas infraestructuras

Pues bien, según los últimos estudios de Hocelot, compañía especializada en la obtención de datos de usuarios en tiempo real, el 60% de los usuarios miente o aporta al menos un dato falso o incorrecto cuando se le solicitan datos personales en Internet. Este hecho es, sin duda, el mayor enemigo al que las empresas se enfrentan en términos de información porque puede repercutir directamente en las cuentas de resultados de las compañías.

El conjunto de datos incorrectos, incompletos, desactualizados o duplicados que se encuentran en las bases de datos de las empresas se conoce como Dirty Data y, claro está, hay que eliminarlo introduciendo, según esta firma, dos nuevas variables necesarias: veracidad y valor. “La primera se ha convertido en una cuestión de confianza para las propias empresas, ya que se calcula que el 25% de la información que poseen las organizaciones podrían ser datos falsos. La segunda, además, es igualmente importante, puesto que contar con datos verídicos aporta un valor añadido a las bases de datos de las empresas y maximiza la utilidad de los datos recabados”, afirma.

¿Por qué mienten los usuarios?
Los motivos por los que los usuarios falsean los datos tienen varias perspectivas, señala la compañía. En primer lugar, para evitar que el usuario sea identificado por la empresa y huir del acoso previsible de las campañas online. Asimismo, los usuarios suelen falsificar de forma parcial algunos datos (edad, localización geográfica, etc.) para ser excluidos o incluidos en determinados segmentos. Por ejemplo, dice Hocelot, el 23% de los usuarios asegura que falsea su fecha de nacimiento de forma ocasional. Por otra parte, también se puede producir el falseamiento de datos con fines ilegales o delictivos.

Para reducir esta realidad, la compañíaha desarrollado sus servicios de Smart Data y Smart Analytics, los cuales permiten cruzar y analizar infinidad de datos online, centrándose en tres grandes campos: aspectos personales (edad, nivel educativo, búsquedas de trabajo, etc.), económicos (sueldo, capacidad de ahorro, etc.) y lo relativo al hogar (renta de alquiler, precio estimado del inmueble, etc.). Con este tipo de servicios, las empresas son capaces de realizar un análisis más exhaustivo de cada usuario, ya que les permite analizar infinidad de datos personales y profesionales.