Table of Contents

El cotejo de datos puede ser una tarea frustrante, plagada de errores y que te exige navegar por variables complejas, datos desordenados y peculiaridades ocultas. ¡No desesperes! Si evitas los errores comunes en la correspondencia de datos difusos, podrás obtener resultados precisos y olvidarte del estrés.
LIMPIEZA INSUFICIENTE DE LOS DATOS
La mayoría de las empresas realizan operaciones ETL (extraer, transformar, cargar) básicas en sus datos antes de utilizarlos con fines empresariales. Pero los procesos ETL básicos ya no sirven. Los datos de nuestro mundo moderno no proceden de una única fuente, ni contienen una estructura básica. Tienes datos procedentes de formularios web, de vendedores en puntos de venta o de fuentes de terceros. Todas estas fuentes de datos tienen errores humanos, formatos y estructuras diferentes. Y lo que es más importante, carecen de parámetros de calidad de datos; y las personas que se encargan de la entrada de datos no están formadas en calidad de datos. ¿El resultado? Altos niveles de datos sucios. ¿El error? Descuidar los datos sucios o tratarlos superficialmente. Esto es lo que suele ocurrir cuando se necesita un conjunto de datos para un fin empresarial, como la previsión de ventas. Se asigna la tarea a un recurso informático junior. Tienen que exportar los datos a Excel y realizar operaciones ETL básicas. Sólo tienen que asegurarse de que las letras están normalizadas, por ejemplo, convertir todas las LETRAS MAYÚSCULAS en minúsculas, o simplemente buscar duplicados exactos en el registro y eliminarlos. Una vez hecho esto, el archivo se guarda y se envía a los usuarios empresariales. ¡Trabajo hecho! Cuando el usuario empresarial reciba este registro, le costará corroborar los datos con sus propias listas o registros. Y a partir de aquí empieza un tira y afloja. Al final, los usuarios empresariales aceptan lo que se les da porque no conocen nada mejor y siguen adelante con los datos defectuosos. Sólo cuando estos datos provocan una crisis (como falsas percepciones) intervienen los recursos informáticos superiores. En ese momento, se produce una reacción impulsiva para entrar y hacer correcciones drásticas, o subcontratar a un costoso especialista para que coteje los datos. Puedes evitar todo esto, si simplemente sigues un protocolo básico:
- Invierte en herramientas de automatización de la limpieza de datos que tengan componentes preconstruidos para la limpieza, normalización y deduplicación de datos. Estos marcos pueden agilizar el desarrollo y el mantenimiento.
- Ve más allá de las correcciones superficiales; utiliza técnicas avanzadas de limpieza de datos para abordar problemas como valores omitidos, duplicados y valores atípicos.
- Forma a tu equipo sobre la importancia de la calidad de los datos y las mejores prácticas para su gestión.
- Aplica comprobaciones de validación de datos para garantizar que los datos depurados cumplen los criterios de calidad predefinidos.
- Programa tareas periódicas de limpieza y mantenimiento de datos para mantener actualizado tu conjunto de datos.
Recuerda que los datos sucios son la principal causa de falsos resultados de coincidencia, lo que a la larga conduce a percepciones y predicciones inexactas. También te enfrentarás a importantes retos en términos de tiempo y recursos. El tiempo empleado en externalizar, arreglar y cotejar los datos puede llevar semanas, si no meses. Además, tendrás que compartir los datos con una parte externa, lo que significa que no podrás controlar las fugas de datos si se producen. Por tanto, utilizar una herramienta local de limpieza o cotejo de datos es una forma mejor de evitar errores costosos, limpiar tus datos y asegurarte de que no contienen errores antes de utilizarlos con fines empresariales.
PASAR POR ALTO EL CONTEXTO DE LOS DATOS
Otro error común que hay que evitar es no tener en cuenta el contexto de los datos. En un perspicaz seminario web con el equipo de WinPure, Libba Stanford, una renombrada estratega de datos, afirma: ‘Las empresas presionan para obtener más datos sin abordar los problemas. No hablan con los trabajadores de primera línea que recopilan los datos y a veces se olvidan de todo el contexto de los datos. Los trabajadores de primera línea recopilan y experimentan los datos, y tienen esa imagen completa de la información que las empresas pueden cuestionar y de la que pueden extraer respuestas y elaborar mejor estrategias y planes. Sin embargo, hay muy poca comunicación con los trabajadores de primera línea. De nuevo, no hay resolución de problemas. La atención se centra únicamente en la mejora de los procesos o de la información». ¡Libba tiene toda la razón! Compartamos un escenario: Un analista de datos junior puede creer que utilizar la forma completa de las abreviaturas de empresas como (IBM, UPS y BMW) es mejor y, por tanto, decide «estandarizarlas» todas, sin consultar con el equipo empresarial. Sin embargo, si en la lista de empresas de RRHH, estos datos se almacenan como «IBM Inc.», los dos registros no coincidirán. Puede que el analista sólo se dé cuenta del error cuando tenga que comparar estas dos listas de datos para un fin empresarial. Es entonces cuando el error se convierte en un cuello de botella crítico para la correspondencia de datos. En el cotejo de datos, el contexto importa mucho. Si un analista de datos no conoce el contexto del contenido que intenta cotejar, no podrá detectar falsos positivos y negativos. ¡Incluso podrían fusionar, purgar o crear falsos registros de oro! Éste es un problema que acaba provocando el fallo de las aplicaciones posteriores, a menudo de forma catastrófica.
AJUSTAR EL NIVEL DE DIFUMINADO INCORRECTO
Esto puede parecer muy intrascendente, pero en el gran esquema de un ejercicio de emparejamiento de datos, establecer un nivel difuso incorrecto puede hacer descarrilar todo el ejercicio de emparejamiento. Un nivel de coincidencia difusa es un umbral que estableces manualmente para determinar el nivel de similitud entre dos cadenas. En términos sencillos, si quieres saber si Rob Jone y Robe Jons coinciden, tendrás que fijar el nivel de umbral en un determinado porcentaje. Si fijas un nivel de umbral incorrecto, estarás pidiendo al algoritmo que agrupe coincidencias que no son duplicados, sino que simplemente son similares a nivel de cadena (también por eso es importante ser consciente del contexto de tus datos). Un umbral más bajo permite más flexibilidad, capturando potencialmente más coincidencias, pero también introduciendo más falsos positivos. Por el contrario, un umbral más alto aumenta la precisión, pero puede pasar por alto algunas coincidencias válidas. Sugerimos utilizar un umbral del 90% para los proyectos de coincidencias difusas, pero depende de tus necesidades y objetivos específicos. Aquí tienes ejemplos de lo que podrías obtener al establecer un nivel difuso al 85%, 90% y 95%:
Al 85%:
En un nivel difuso del 85%, el proceso de coincidencia es más permisivo, permitiendo un rango más amplio de similitud entre los registros. Esto es bueno si quieres obtener una visión general de tus datos y del nivel de duplicación. Si los resultados agrupan campos que no son duplicados, sino que simplemente tienen cadenas similares, puedes reducir el umbral de coincidencia.
Por ejemplo:
El algoritmo podría hacer coincidir «John Smith» en el Conjunto A con «Jon Smithe» en el Conjunto B, aunque las grafías tengan más variaciones y una errata. Ambos contactos podrían no ser el mismo, pero el sistema lo marca como coincidencia. Si este umbral se aplica a una base de datos más grande con más variaciones, puede dar lugar a miles de falsos positivos, desbaratando por completo el ejercicio de coincidencia.
Al 90%:
Este nivel establece un equilibrio entre la captura de coincidencias válidas y la reducción de falsos positivos. Seguirás teniendo falsos positivos (¡nunca podrás librarte de ellos!), pero a un nivel inferior que con un umbral del 85%. Un umbral del 90% es bueno para tareas en las que quieras manejar variaciones moderadas, por lo que es eficaz para cotejar datos con discrepancias comunes, como erratas, abreviaturas o variaciones menores.
Por ejemplo:
En un catálogo de productos, estás haciendo coincidir nombres de productos de distintos proveedores. Con un nivel de difuminación del 90%, el algoritmo empareja «Samsung Galaxy S21» con «Samsung Galaxy S21 5G», ya que reconoce la gran similitud, pero puede que no empareje «Samsung Galaxy S21» con «Samsung Z Fold» debido al nivel de «disimilitud».
Al 95%:
Es más probable que las coincidencias sean exactas, lo que da lugar a menos falsos positivos; sin embargo, el algoritmo es sensible incluso a pequeñas diferencias. Al 95%, es casi una coincidencia exacta, por lo que el algoritmo buscará cadenas que sean casi exactas o que sean coincidencias exactas. Para tareas en las que la precisión es crítica, como la detección de fraudes, puede ser adecuado un umbral más alto, como el 95%.
Por ejemplo:
Con un nivel difuso del 95%, puede que el algoritmo sólo haga coincidir «Robert Johnson» con «Robert Johson» si las diferencias son mínimas. Puede que no haga coincidir «Robert Johnson» con «Rob Johnson» si las diferencias son más significativas. Sin embargo, la elección de establecer el umbral suele depender del contexto de los datos, de tus objetivos de coincidencia de datos y de tu caso de uso específico. La solución de coincidencia de datos WinPure tiene el nivel de coincidencia difusa fijado por defecto en el 90%, sin embargo, los usuarios son libres de ajustar los umbrales y revisar los diferentes resultados de las coincidencias. Si tuvieras que hacer esto utilizando scripts de coincidencia difusa en Python, perderías una cantidad significativa de tiempo en ajustar y afinar el algoritmo, por no mencionar que también serías propenso a cometer errores por el camino.
AJUSTES DE CONFIGURACIÓN INCORRECTOS
Bien, ya hemos tratado la limpieza de datos, el contexto de datos y el establecimiento de un umbral de coincidencia de datos. A continuación, un error clásico que vemos cometer a los clientes es con los ajustes de configuración. Veámoslo con un ejemplo sencillo:
| ID de registro | Nombre | Dirección | Correo electrónico | Preferencia |
| 101 | John Doe | 123 Calle Mayor | johndoe@email.com | Música, Cocina |
| 101 | Jon Doe | Calle Mayor 245 | jondoe@email.com | Música, Cocina |
| 102 | Jane Smith | 456 Maple Ave. | janesmith@email.com | Viajes |
| 103 | John Doe | Calle Elm 1234 | john.doe@email.com | Compras |
| 104 | Jane Smyth | Avenida Maple 456 | jane.smith@email.com | Compras |
Existen múltiples registros y variaciones de un contacto llamado John Doe. La primera y la segunda fila indican un registro duplicado, con sólo una diferencia en los datos de dirección. Sin embargo, en la cuarta fila, tenemos otro registro de John Doe con diferentes ID de correo electrónico, direcciones y preferencias. Ahora, suponiendo que quieras agrupar a los clientes por sus preferencias, ¿cómo harías para establecer la configuración de esta coincidencia? En este caso, quizá quieras ejecutar primero una coincidencia entre el ID de cliente y el correo electrónico para consolidar el registro duplicado. Una vez hecho esto, puedes ejecutar otra coincidencia para consolidar los datos en función de las preferencias. De esta forma puedes eliminar duplicados, investigar por qué tienes varias direcciones de Juan Pérez (tal vez intentar eliminar datos obsoletos) y revisar la validez de sus datos. Mira cómo se hace en este vídeo 👇🏼
- registrar palabras comunes en una biblioteca de base de conocimientos para que no se emparejen
- establecer diferentes reglas para cotejar datos entre o dentro de conjuntos de datos
- decidir fusionar o depurar registros
- establecer y exportar registros maestros
Todo esto, ¡sin una sola línea de código! Pregunta a cualquier especialista en coincidencias difusas y te dirá la cantidad de esfuerzo que supone crear ajustes de configuración que puedan hacer bien el trabajo a la primera. La mayoría fracasan en el primer intento, y tienen que volver a ajustar el algoritmo hasta que consiguen las coincidencias correctas.
MEJORES RESULTADOS EN LOS PARTIDOS, MENOS ERRORES CON WINPURE
En conclusión, el emparejamiento de datos difusos es una tarea difícil, propensa a errores, sobre todo cuando tienes que tomar tantas decisiones con técnicas, variaciones en los datos, configuraciones de emparejamiento, etc. Añade problemas como plazos, requisitos urgentes, recursos limitados, datos sucios, y tendrás una crisis en toda regla en tu departamento. Al intentar resolver todos estos problemas a la vez, te arriesgas a cometer todo tipo de errores que conducen al fracaso empresarial. Una visión extraída de datos brutos podría ser errónea. Un informe basado en datos duplicados podría dar información errónea. Una aplicación empresarial alimentada con datos sucios puede funcionar mal: las consecuencias de unos datos deficientes son desastrosas. Ahí es donde una potente solución de comparación difusa como WinPure puede ayudarte. Con nuestra tecnología de correspondencia difusa, puedes realizar todas estas tareas complejas en cuestión de minutos, sin necesidad de especialistas formados. Además, puedes:
- Realiza una limpieza previa de los datos, como establecer normas para abreviaturas o formas cortas como Str for Street durante el proceso de emparejamiento
- Empareja dentro y entre conjuntos de datos utilizando una combinación de algoritmos de emparejamiento difusos, exactos y numéricos
- Crear registros dorados para uso empresarial
- Reduce los errores y fallos con un equipo profesional que trabaja contigo para resolver los obstáculos en el proceso de emparejamiento
Descárgate la versión de prueba gratuita o reserva una llamada para ver cómo podemos resolver tus problemas empresariales con capacidades de correspondencia de datos mejores, más rápidas y más precisas.
Start Your 30-Day Trial!
Secure desktop tool.
No credit card required.
- Match & deduplicate records
- Clean and standardize data
- Use Entity AI deduplication
- View data patterns
... and much more!

