Los datos sucios son una dura realidad de la que la mayoría de las empresas quieren escapar. Es como tener una casa bonita, pero con un sistema de fontanería que provoca fugas y afecta a la integridad, la estética y la funcionalidad de tu hogar. Podrías intentar tapar el problema con herrajes extravagantes, alfombras, selladores o incluso pintura, pero a menos que el problema se corte de raíz, tu casa siempre quedará a merced del sistema de fontanería. Una cosa tan pequeña, ¡pero con un impacto tan grande! Entonces, ¿cómo superar este peligro causado por los datos sucios y cuáles son los pasos críticos que las empresas pueden dar hoy? Nuestro seminario web con Navneet Makhni, Director Principal de Estrategia en Accenture, aborda estas cuestiones críticas, donde Navneet proporciona métodos estratégicos para superar los retos de los datos sucios. Mira el seminario web completo a continuación.

¿Qué son los datos sucios y por qué las empresas siguen luchando para superarlos?

Todos entendemos de datos y a todo el mundo le gusta hablar de los datos como el nuevo petróleo, pero ¿vivirías con un petróleo de mala calidad? No lo harías. Pero vives con datos de mala calidad, así que sí, los datos son el nuevo petróleo, ¡pero no se tratan ni de lejos como se trata el petróleo en nuestras economías! Las empresas siguen lidiando con datos sucios porque no entienden lo que tienen que arreglar. Tenías un almacén de datos, para empezar, que procedía de fuentes de archivos planos y Excel, así que pensaste que poner un almacén de datos resolvería tu problema y luego pensaste que llevar esos datos a un lago de datos lo solucionaría. Sin embargo, utilizar lagos de datos o construir nuevas infraestructuras de datos no resuelve el problema de los datos sucios. La mayoría de las empresas tardan en solucionar los problemas de calidad de los datos porque el problema no se reconoce al nivel que debería. Navneet comparte un buen ejemplo para demostrar la incapacidad de una empresa para detectar problemas de calidad de datos. Una empresa puede tener los nombres de un proveedor duplicados e introducidos dos veces en la base de datos.

  • ¿Cómo se introdujo esa información?
  • ¿Quién era el responsable?
  • ¿Cuál de las dos informaciones es correcta?

Son preguntas cuya respuesta nadie conoce. Una vez que esta información es utilizada por un equipo empresarial, digamos el equipo de facturación para enviar una factura, ¡tendrían que enviar dos facturas al mismo proveedor! En este punto, la empresa asumiría que hay algo mal en la factura o en el sistema de facturación, pero pocos lo rastrearían hasta la entrada original. Este es un ejemplo real del tipo de datos sucios con los que las empresas tratan a diario, pero son incapaces de identificar lo que realmente necesitan arreglar para resolver el problema. Es similar al problema de fontanería en casa: no tienes ni idea de quién ha causado el problema de fontanería a menos que contrates a un experto técnico para que evalúe toda la infraestructura e identifique la causa raíz del problema. Para la mayoría de las empresas, esto abre una caja de pandora de problemas y arreglos que supondrían gastos muy elevados. Las empresas eligen vivir con datos malos porque es más fácil que arreglarlos desde el origen.

¿Cuáles son los casos más comunes de datos sucios?

Las formas más incorrectas de datos erróneos serían la información personal, como nombres, direcciones, edad e incluso datos como el sexo. Independientemente del sector, el primer problema que siempre deben resolver los especialistas en datos es: limpiar los datos de los clientes. Las empresas quieren una lista limpia y de primera clase de los datos de sus clientes. Algunos de los retos más comunes a los que se enfrentan con estos datos son:

Los nombres están en blanco, son incorrectos o están incompletos

Errores tipográficos, ortografía culturalmente incorrecta y mala introducción de datos (como la puntuación en un nombre).

Datos de direcciones incompletos, no normalizados y no validados

Junto con esto, los datos de referencia también tienen graves problemas con la calidad de los datos. Los datos de referencia son datos que ayudan a categorizar otros datos. Por ejemplo, una lista de países, la lista de ciudades del país, los posibles valores de las monedas, etc. Existen normas y listas internacionales de países, ciudades y monedas que la mayoría de las empresas sencillamente no siguen. Crean su propia lista, sólo para acabar teniendo problemas más tarde, cuando se dan cuenta de que falta un país o una ciudad, ¡o cuando una moneda no se asigna al país correcto!

¿Qué medidas prácticas pueden tomar las empresas para solucionar los problemas de los datos sucios?

Utilizando la analogía de la fontanería, Navneet explica un enfoque sistemático para resolver el reto de los datos sucios. ✅Identificar el alcance: Para empezar, primero debes identificar el alcance del problema de fontanería/fugas. En términos de datos, identifica qué es lo que intentas arreglar. Por ejemplo, ¿estás intentando arreglarlo porque se ha modelado incorrectamente, lo que significa que es una cualidad del modelado de datos? ¿Intentas arreglarlo porque es un problema de datos maestros o porque es la información fundamental que quieres tener en tu empresa? Identifica qué intentas arreglar. Ése es tu primer paso o puente a cruzar cuando intentas arreglar cualquier problema de calidad de datos. ✅Construir el plan a largo plazo: Hay dos formas de solucionar este problema: a corto o a largo plazo. Para el plan a corto plazo, puedes ponerle un poco de sellador para darle un alivio temporal. Una vez que hayas hecho el apaño temporal, quizá quieras buscar un enfoque a largo plazo. Podrías identificar la causa de la fuga. Tendrías que identificar la causa de la fuga: ¿podría ser un problema de la vivienda? ¿Un problema causado por el hombre? ¿O fue causada por una infestación de plagas? Comprender la causa puede ayudarte a resolver el problema de raíz. ✅Implanta la Gobernanza de Datos: Una vez que hayas identificado los problemas a corto y largo plazo, puedes dedicarte a limpiar tus datos históricos (que son análogos al agua en el suelo causada por la fuga). Querrás limpiarlo y asegurarte de que esa fuga no vuelva a producirse, o si se produce, deberás tener un mecanismo de respuesta mejor para ello (análogo a tener un plan de gobierno de datos).

¿Cómo afecta la mala calidad de los datos a las aplicaciones posteriores?

Las aplicaciones posteriores, como la analítica y los proyectos de IA/ML, son las más afectadas por los datos deficientes. Por ejemplo, si un cuadro de mandos analítico se alimenta con 100 registros de clientes duplicados, incorrectos o entradas basura, generará resultados basura siguiendo el fenómeno Garbage In, Garbage Out. Hay muchos casos reales en los que un modelo predictivo se alimentó con datos defectuosos, lo que dio lugar a previsiones sesgadas. Si se hace creer a una empresa que ha duplicado sus métricas de ventas, pero en cambio la aguja no se ha movido en absoluto, ¡esto puede dar lugar a reveses empresariales en tiempo real! Del mismo modo, si se hace creer a una empresa que ha sufrido un descenso de la rentabilidad, puede pasar a despedir personal causando daños en tiempo real. En lo que respecta a la IA, el efecto es muy evidente: alimenta a un modelo de IA con datos deficientes y obtendrá resultados deficientes. De nuevo, hay muchos casos en los que los modelos de IA se consideraron tendenciosos y racistas debido a los datos deficientes con los que se les alimentó.

¿Quién es responsable de la calidad de los datos?

Por último, ésta es una pregunta crítica, con una respuesta directa, que la mayoría de las empresas no suelen acertar. Cuando hay un problema de datos sucios, las empresas tienden a contratar a un informático con conocimientos de gestión de datos, o a un analista de datos para que venga y «arregle» los datos. Pero, contrariamente a la práctica popular, un informático no puede arreglar esos datos. Sencillamente porque no tienen el contexto de los datos. Los equipos de tecnología entienden los datos como un atributo un valor en la columna de una tabla que se almacena en el modelo de datos que se conecta a través de conductos y ya está. Por ejemplo, si el 30% de los clientes de una empresa tienen su sede en Europa, otro 40% en el Reino Unido y el resto en EE.UU., entonces los datos necesitan divisas como dato de referencia importante. Si llamas a un informático, ¡puede que ni siquiera sepa que esto es un problema! Alguien tiene que segregar estos datos a nivel de país (o incluso de ciudad) para incluir el factor divisa. La calidad de los datos es un problema contextual más que un problema a nivel de atributo. Por tanto, la propiedad de la calidad corresponde a la empresa, a quien sea responsable de ese proceso empresarial. Puede ser el CDO, el CEO, el CMO, principalmente, el líder que supervisa el proceso empresarial. La calidad de los datos depende del contexto y las normas se rigen por la finalidad, la función y los requisitos del propio proceso empresarial. Así, por ejemplo, si un proceso empresarial no requiere el uso de nombres de pila o títulos, entonces la calidad de los nombres o títulos no es relevante. Sin embargo, no son decisiones que puedan tomar los equipos informáticos o tecnológicos. Son decisiones que sólo pueden tomar los equipos empresariales que comprenden el contexto de los datos y pueden determinar lo que constituiría una calidad «deficiente». Por supuesto, esto no quiere decir que los CMO o los CDO tengan que hacer el trabajo real. En cambio, se les exige que sean responsables y dirijan la atención a la calidad de los datos, asegurándose de que comprenden la naturaleza y los retos que plantean los datos.

arreglar los datos sucios es un proceso de enjabonado/enjuagado repetido

Los datos sucios son un problema frecuente; sin embargo, para resolverlo, tendrías que identificar el alcance, implicar a la dirección, definir la responsabilidad y la propiedad, arreglar los procesos y adherirte a soluciones reales en lugar de parches. Sin embargo, incluso cuando encuentres la solución, tienes que ceñirte a una rutina de limpieza y reparación. Los datos se pueblan a un ritmo rápido, especialmente si tienes integraciones con múltiples partes y, por esa cuenta, significa que llegan nuevos datos con nuevos retos. Incluso si solucionas la fuga en el nivel raíz, sigues necesitando una comprobación rutinaria para asegurarte de que todo está en orden. La misma regla se aplica a la calidad de los datos. Y como dice Navneet

No seas complaciente.
Por supuesto, si hay un arreglo provisional que debas hacer, hazlo teniendo en cuenta la urgencia empresarial que lo rodea, pero recuerda perseguirlo como orden del día la próxima vez que hables con la organización.
Puede que te den diferentes excusas, pero si no solucionas el problema, el charco permanecerá, causando moho y, con el tiempo, debilitando la infraestructura de tu departamento.

Mejora de la calidad de los datos con WinPure

WinPure es una solución de calidad de datos sin código que te permite limpiar, deduplicar y normalizar grandes conjuntos de datos mediante una interfaz de apuntar y hacer clic. Tú estableces las reglas. Tú estableces la matriz de limpieza. Tú eliges las reglas de normalización que quieres utilizar. Todo ello sin necesidad de código adicional, conocimientos técnicos ni infraestructura adicional. WinPure es una solución local que pueden utilizar los usuarios de tu empresa para limpiar y normalizar los datos empresariales. ¡Ponte en contacto con nosotros para ver cómo podemos ayudarte!

Author

  • : Author

    The WinPure Team shares official updates on our products, features, and company news. From new releases and enhancements to behind-the-scenes developments, this space keeps you informed on how WinPure continues to deliver secure, reliable, and innovative data quality solutions.

Start Your 30-Day Trial!

Secure desktop tool.
No credit card required.

  • Match & deduplicate records
  • Clean and standardize data
  • Use Entity AI deduplication
  • View data patterns

  • ... and much more!
Índice