La coincidencia de datos es un proceso crítico en las iniciativas de transformación de datos, como la vinculación de registros, la vista única del cliente y la resolución de entidades e identidades. En esta guía de coincidencia de datos, explicaremos todo sobre la coincidencia de datos: qué es, cómo funciona, sus diferentes casos de uso y sus numerosos beneficios.

Salta a una sección:

¿Qué es la Coincidencia de Datos?

La coincidencia de datos (también conocida como coincidencia de registros) compara dos o más registros según criterios dados para cumplir con un propósito específico. Por ejemplo, comparar y hacer coincidir datos de teléfono y dirección de una o varias personas para identificar su unicidad y eliminar entradas duplicadas.

La coincidencia de datos es comúnmente necesaria para:

Resolución de entidades: el proceso de identificar y fusionar registros para representar la misma entidad del mundo real. Por ejemplo, combinar datos de dirección, redes sociales, ventas y facturación para obtener un registro consolidado de un cliente.

La coincidencia de datos permite la comparación y fusión de múltiples identidades de diversas fuentes de datos para obtener una vista precisa de la persona, como se muestra en la imagen a continuación.

Customer Identity Resolution Solution ahi
Source: Treasure Data Blog 

Gestión de datos maestros: creación de registros maestros confiables y precisos sin duplicados ni errores. Los registros de MDM son la única fuente de verdad en la que las empresas confían para tomar decisiones comerciales.

Mejora de la calidad de los datos: coincidir datos para validar datos existentes o eliminar duplicados y mejorar la credibilidad, el valor y la precisión de los datos.


¿Por Qué Es Importante la Coincidencia de Datos?

La coincidencia de datos es uno de los pasos más importantes en la gestión de datos y cumple múltiples propósitos esenciales. La coincidencia de datos puede aumentar la eficiencia, validez, precisión y cumplimiento en una amplia variedad de empresas e industrias.

La coincidencia de datos tiene efectos positivos, como la mejora del servicio al cliente y la retención de clientes, el aumento de la eficiencia, la mejora de la calidad de los datos y, sobre todo, ayuda a impulsar el crecimiento empresarial. Esto la convierte en una parte fundamental de la gestión de datos.

¿Cómo Funciona la Coincidencia de Datos?

La coincidencia de datos utiliza varios algoritmos para comparar datos de atributos, datos de referencia y datos de grupos; también conocidos como los tres niveles de datos en un sistema ER.

Nivel de Atributo: El nivel más bajo de coincidencia de datos se realiza entre dos atributos de identidad, como nombres, lugares, ubicaciones, números, etc. Si dos atributos muestran el mismo nivel de similitud, se considera una coincidencia exacta.

Nivel de Referencia: La mayoría de los sistemas ER utilizan datos de referencia para la coincidencia. Este es un subconjunto especial de datos que incluye códigos postales, monedas, códigos de transacción, jerarquías y direcciones IP o cookies.

Nivel de Grupo/Cluster: En lugar de intentar comparar todos los registros a nivel de atributo o de referencia, se agrupan en grupos. Por ejemplo, recopilando todos los identificadores con números de teléfono que comienzan con un código de país específico en un solo grupo.

No hay un único algoritmo de coincidencia en funcionamiento. En su nivel más alto, la coincidencia de datos utiliza varios algoritmos para determinar una coincidencia; sin embargo, casi todos los enfoques algorítmicos pueden clasificarse en cuatro grupos.

Algoritmos de Coincidencia Determinística

También conocidos como ‘coincidencia exacta’, los algoritmos de coincidencia determinística comparan registros basándose en la similitud a nivel de atributos. Cada atributo se compara con el mismo atributo en otro registro para identificar una coincidencia o no coincidencia.

Por ejemplo, un algoritmo de coincidencia determinística compararía un número de teléfono en un registro con un número de teléfono en otro registro para identificar si los dos valores son iguales y coinciden. Esta relativa simplicidad permite un alto rendimiento y resultados de coincidencia más rápidos.

¿El inconveniente? Los registros deben ser precisos y tener ortografía y mayúsculas exactas para coincidir.

Los algoritmos de coincidencia determinística tienen capacidades limitadas para manejar anomalías como campos incompletos o en blanco, errores comunes de ortografía en nombres (Catherine vs. Kathryn) y errores tipográficos, entre otras complejidades.

La mayoría de las herramientas avanzadas de coincidencia de datos pueden superar esta limitación al proporcionar limpieza y preparación de datos junto con la coincidencia de datos en una sola interfaz. Esto facilita al usuario limpiar, estandarizar, coincidir y crear registros finales sin cambiar de tarea ni de plataforma.

Producto Relacionado: Software de Coincidencia de Datos WinPure

Algoritmos de Coincidencia Difusa

Los algoritmos de coincidencia difusa se utilizan para facilitar coincidencias determinísticas. Las técnicas difusas, como el algoritmo Soundex para manejar coincidencias fonéticas o la Distancia de Edición de Levenshtein para manejar variaciones en valores de cadena causadas por errores de escritura o calidad de datos. Por ejemplo, la distancia de edición entre las cadenas Catherine y Katherine es «1» porque solo una operación de edición, la sustitución de C por K, es necesaria para transformar Catherine en Katherine. La coincidencia difusa permite una coincidencia fácil de datos semiestructurados y registros que no pueden coincidir mediante métodos determinísticos.

2808309149

Algoritmos de Coincidencia Probabilística

La coincidencia probabilística se basa en teorías de probabilidad estadística para determinar una coincidencia. Utiliza un conjunto más amplio de elementos de datos y ponderaciones para calcular puntuaciones de coincidencia, y umbrales para decidir si dos atributos coinciden.

Por ejemplo, en el idioma inglés, «Will» se entiende como un apodo común para «William», o «Kath» para «Katherine». La mayoría de los esquemas de coincidencia probabilística incorporarán reglas de apodos o utilizarán reglas predefinidas para manejar coincidencias no exactas.

Con los datos de redes sociales y las identidades digitales como fuentes de datos importantes, la mayoría de las reglas de coincidencia para la resolución de entidades se basarán en la coincidencia probabilística para determinar una coincidencia. Por ejemplo, William puede listar su nombre completo como Will Spade en LinkedIn, pero al mismo tiempo puede usar el nombre Willy o Bill en Facebook. De manera similar, puede tener un correo electrónico completamente diferente o un nombre diferente en su tarjeta de crédito, como William John Cutler. En este caso, los algoritmos de coincidencia probabilística pueden determinar si todas estas referencias pertenecen a una sola persona.

Algoritmos Híbridos

Las soluciones avanzadas de coincidencia no se basan solo en un algoritmo de coincidencia para realizar procesos complejos de coincidencia. Utilizan algoritmos híbridos que combinan técnicas determinísticas, probabilísticas, fonéticas, difusas y de aprendizaje automático para lograr tasas de coincidencia más altas. A medida que estén disponibles nuevas técnicas de coincidencia, sus implementaciones serán más híbridas en lugar de puramente determinísticas o probabilísticas.

Independientemente de cuán innovadores sean los algoritmos de coincidencia, en la práctica no existe una técnica única que pueda satisfacer los requisitos cada vez más complejos de la coincidencia de datos a nivel organizacional. Cuando se trata de resolución de entidades y MDM multidominio, se requieren múltiples algoritmos de coincidencia para realizar bien el trabajo.

¿Cuál es el Proceso de Coincidencia de Datos?

El proceso de coincidencia de datos, en términos generales, abarca funciones clave de gestión de datos como limpiar/formatear los datos, indexar los datos, realizar una comparación de datos y crear vistas.

Aquí tienes un desglose breve.

1) Limpieza y Estandarización de Datos

La mayoría de las fuentes de datos contienen datos incompletos, incorrectos e inexactos que afectan la precisión de un proceso de coincidencia. No limpiar, formatear y reducir los errores antes de una coincidencia puede resultar en consecuencias perjudiciales. Por ejemplo, si la dirección de un cliente bancario es incorrecta o está incompleta, el banco podría enviar información sensible a la persona equivocada, lo que podría llevar a demandas, multas o violaciones de las leyes de privacidad. Por lo tanto, la limpieza de datos es el paso más importante de la coincidencia de datos.

2) Identificación de Atributos para Coincidir

Una vez que los datos están limpios y estandarizados, cada registro de una base de datos se comparará con todos los registros de otras bases de datos para calcular las similitudes. Aunque esto parece sencillo, es increíblemente difícil de gestionar con grandes bases de datos. Por ejemplo, la coincidencia de dos bases de datos con un millón de registros cada una resultará en 1 billón de comparaciones de pares de registros. Para reducir comparaciones innecesarias, se eligen atributos fijos (como números de teléfono) para realizar una coincidencia. Solo se comparan entre sí los registros que comparten el mismo valor para los criterios de filtro (como solo números de teléfono de personas dentro de una determinada ciudad).

3) Creación de Bloques de Comparación

Una vez que los registros están indexados para coincidencias, se aplican técnicas de bloqueo para reducir los criterios de coincidencia. Por ejemplo, solo los registros de dos bases de datos que comparten el mismo valor (por ejemplo, entidades que comparten el mismo código postal) se insertan en el mismo bloque. Este enfoque específico de bloqueo probablemente indica una coincidencia y reduce significativamente la carga de trabajo de evaluar y revisar coincidencias.

4) Clasificación de Pares de Registros

En un proceso de coincidencia de datos, la clasificación simplemente significa marcar tus registros como coincidencias o no coincidencias. Los registros coincidentes se guardan para una revisión posterior por humanos, mientras que los no coincidentes se guardan en un registro separado. Algunas empresas incluso prefieren mantener un registro de datos duplicados para una revisión exhaustiva posterior.

5) Creación de un Registro Final para Revisión

Se crea un registro maestro o vista dorada final, que se almacena como la fuente última de verdad. Estos datos tratados y coincidentes se aplican en aplicaciones posteriores para cumplir con los objetivos comerciales.

La coincidencia de datos es un proceso complicado que muchas empresas temen porque intentan realizar el proceso manualmente o no tienen datos suficientemente buenos para ejecutar una coincidencia.

Atención a los Errores en la Coincidencia

Los falsos positivos (cuando un registro se empareja erróneamente con el mismo registro maestro) y los falsos negativos (cuando un registro no se empareja aunque pertenezca al mismo registro de entidad) son dos errores comunes en la coincidencia a tener en cuenta.

Por ejemplo, los falsos positivos pueden desencadenar una alerta de seguridad para un ciudadano inocente si sus datos se emparejan erróneamente con un individuo marcado como criminal, como se ve con frecuencia en los centros de inmigración.

Usando el mismo ejemplo, los falsos negativos excluyen completamente al individuo con antecedentes penales, lo que representa una preocupación de seguridad.

Las posibilidades de que ocurran errores aumentan significativamente con datos de baja calidad. Algunos casos comunes que causan falsos negativos y positivos son:

  • Datos inválidos o incorrectos para múltiples registros (por ejemplo, clientes que completan un formulario con el número de teléfono de una empresa en lugar de su número personal, lo cual podría ser compartido por varias personas).
  • Uso de múltiples versiones del mismo nombre (por ejemplo, Cath, Kath, Catherine, Cathy, Kathy).
  • Errores ortográficos y de direcciones (por ejemplo, Berkeley como Berkley).
  • Uso de abreviaturas en lugar de palabras completas (Avenida vs Ave).
  • Formatos no estandarizados de números de teléfono y direcciones (+1 vs 001).

Los errores en la coincidencia pueden reducirse con una solución de coincidencia de datos que permita un perfilado de datos en profundidad antes del proceso de coincidencia. Durante la etapa de perfilado, los usuarios pueden obtener una vista general de los errores que afectan sus datos.

Aquí se muestra cómo el perfilado de datos en WinPure ayuda a identificar y corregir problemas de calidad de datos antes del proceso de coincidencia.

data profiling & cleaning

Afortunadamente, las tecnologías de coincidencia de datos, como WinPure y muchas otras, ahora permiten a los usuarios limpiar y comparar fuentes de datos de múltiples millones de registros y dominios en segundos, ahorrando meses de esfuerzo.

Si su empresa aún no ha considerado una solución de coincidencia de datos, el momento adecuado es ahora.

Por Qué Las Empresas Necesitan Invertir en Tecnologías de Coincidencia de Datos

A nivel micro, los equipos aún usan Excel para realizar coincidencias exactas de datos, un esfuerzo que consume tiempo y es contraproducente. Tendría que limpiar y transformar los datos manualmente antes de poder ejecutar una comparación usando Excel. Por avanzadas que sean las capacidades de Excel, no es una herramienta diseñada para la coincidencia de datos.

A nivel macro, la mayoría de las empresas esperan que sus analistas de datos o ingenieros creen, prueben y ejecuten algoritmos de coincidencia manualmente, solo para fallar y causar retrasos evitables en los proyectos.

Aquí tiene un desglose aproximado de los plazos esperados para coincidir registros de empleados de una gran organización con más de 500 empleados.

  • 1 mes para identificar atributos y desarrollar un plan de coincidencia de datos.
  • 2 meses para evaluar y resolver problemas de calidad de datos (más tiempo si la organización no tiene una estructura formal de gestión de datos).
  • 1 mes para crear y probar diferentes algoritmos en función de la complejidad de los datos.
  • 1 mes para finalizar un registro de coincidencias junto con la revisión de coincidencias falsas o negativas.

10 Beneficios de la Coincidencia de Datos

Cuando se hace bien, aquí están los 10 principales beneficios de la coincidencia de datos que las empresas pueden experimentar. La coincidencia de datos es un proceso complicado que requiere la combinación de planificación estratégica, un motor de coincidencia avanzado y objetivos comerciales claramente definidos para cumplir con las expectativas.

  1. Detección y prevención de fraudes: Las instituciones financieras están bajo una inmensa presión para hacer frente a actividades fraudulentas cada vez más complejas. La coincidencia de datos se utiliza para comparar los registros de la empresa con bases de datos de delitos y sanciones para identificar detalles sobre el individuo.
  2. Verificación de identidad: Los departamentos gubernamentales y de aplicación de la ley se benefician enormemente de la coincidencia de datos, ya que pueden coincidir registros a nivel de atributos y datos de referencia en múltiples bases de datos para obtener una imagen general del individuo.
  3. Cumplimiento de sanciones y GDPR: En 2019, las violaciones de sanciones resultaron en multas de $10 mil millones por incumplimiento de regulaciones AML y KYC. Las empresas deben coincidir sus datos con las listas de sanciones para evitar involucrarse accidentalmente en comercio con entidades o individuos listados.
  4. Mejores Programas Públicos: Un informe del CBPP en Estados Unidos reveló que más del 40% de las personas elegibles no recibieron beneficios de un programa de nutrición debido a brechas en el registro. La coincidencia de datos permitió a cuatro estados identificar estas brechas y realizar un alcance específico.
  5. Campañas Dirigidas: Según Salesforce, el 70% de los datos de CRM se vuelven obsoletos, mientras que alrededor del 30% de los registros están duplicados. La coincidencia de datos se vuelve vital para asegurarse de que los registros estén completos y actualizados antes de ejecutar una campaña.
  6. Mejor Servicio al Cliente: La coincidencia de datos puede consolidar registros dispersos, proporcionando una visión de 360° de los clientes, lo que mejora el servicio al cliente.
  7. Mejora de la Retención de Clientes: Un gimnasio puede usar la coincidencia de datos para ofrecer descuentos exclusivos a miembros de la misma familia, lo cual incrementa la retención.
  8. Incremento de la Eficiencia Organizacional: Las empresas que invierten en procesos de MDM y resolución de entidades reportan mayor eficiencia.
  9. Eliminación de Duplicados y Mejora de la Calidad de los Datos: La deduplicación es uno de los mayores beneficios de la coincidencia de datos y ayuda a mejorar la calidad de los datos.
  10. Impulso del Crecimiento Empresarial: La coincidencia de datos eficiente es fundamental para la resolución de entidades, lo que favorece el crecimiento al proporcionar vistas completas de los clientes y marketing dirigido.

Muchos clientes conocen los beneficios de la coincidencia de datos, pero luchan con la implementación. Nuestra solución de Limpieza y Coincidencia está diseñada para facilitar este proceso con una solución sin código fácil de usar.

¿Qué Hace de WinPure una Solución de Coincidencia de Datos Líder en el Mercado?

WinPure es una solución líder que ofrece la mayor precisión en la industria con características clave como:

Precisión de coincidencia: Una mayor precisión proporciona una visión más completa e integrada de la entidad y reduce los errores asociados con falsos positivos (por ejemplo, asociar incorrectamente a una persona como empleado de una organización equivocada) o falsos negativos (por ejemplo, omitir completamente el nombre de un empleado). La coincidencia de datos de WinPure tiene una precisión de coincidencia de casi el 97%, superior a cualquier otra en la industria.

Velocidad de coincidencia: Es fundamental que una solución de coincidencia de datos entregue resultados en tiempo real. WinPure ofrece el motor de coincidencia de datos más rápido e inteligente mediante algoritmos propietarios de coincidencia fonética y difusa, combinados con funciones sofisticadas de puntuación y fusión.

Registros maestros: Una vez que se completan la vinculación y coincidencia, los resultados deben almacenarse como un registro maestro para el procesamiento posterior. WinPure permite crear reglas personalizadas para definir los registros maestros.

Escalabilidad: Un motor de coincidencia de datos debe ser capaz de abordar las preocupaciones de escalabilidad. Esto incluye el número de registros a coincidir, la capacidad de integración fácil con diversas fuentes de datos, la capacidad para reglas de coincidencia definidas por el usuario, y más. WinPure permite la coincidencia de un millón de registros y más, dependiendo de la capacidad en memoria del hardware del usuario.

Facilidad de uso: La solución de coincidencia de datos debe proporcionar una interfaz intuitiva y fácil de usar para que los usuarios puedan definir y personalizar criterios de coincidencia y resolver incertidumbres. La solución de coincidencia de datos de WinPure es apreciada por su facilidad de uso, donde incluso los usuarios comerciales pueden realizar una actividad de coincidencia de datos con una capacitación mínima. Una interfaz intuitiva marca la diferencia entre la aceptación y el rechazo por parte del usuario.

El motor de coincidencia de datos de WinPure está finamente ajustado para lograr una alta precisión de coincidencia y preservar la integridad de sus técnicas algorítmicas. Sin embargo, hay situaciones en las que deben seguirse reglas de coincidencia personalizadas y procesos manuales para lograr el resultado empresarial deseado. En tales casos, el motor de coincidencia de datos de WinPure permite a los usuarios crear reglas personalizadas junto con los algoritmos de coincidencia para obtener resultados satisfactorios.

Ejemplo de coincidencia de datos: Cómo Vodafone usó las capacidades de coincidencia difusa de WinPure para alinear ventas y adquisiciones

Vodafone, una empresa multinacional británica de telecomunicaciones, opera en 22 países y presta servicios a clientes corporativos en 150 países. Con una base de datos tan grande, Vodafone necesitaba un motor de coincidencia de datos que pudiera igualar todos sus nombres de cuenta de una lista y alinearlos correctamente con las mismas cuentas en su base de datos maestra de ventas.

La solución de WinPure no solo ayudó con la coincidencia, sino que también corrigió errores ortográficos y otros problemas de calidad de datos para optimizar los resultados de la coincidencia. Esto le ahorró a Vodafone meses de esfuerzo y le ayudó a mejorar sus ingresos de manera oportuna.

Lea sobre un ejemplo de coincidencia de datos de la experiencia de Vodafone usando WinPure. 

Para Concluir

La coincidencia de datos es una función crítica que requiere tecnología de clase mundial.

A medida que las estructuras de datos se vuelven más complejas, se requieren tecnologías de coincidencia de datos que puedan mantenerse al día. Ya sea un proyecto empresarial como la coincidencia de millones de registros para una fusión, o un pequeño proyecto departamental como la combinación de datos de marketing y ventas para obtener información, las técnicas primitivas de coincidencia de datos, como las comparaciones exactas mediante fórmulas de Excel o algoritmos codificados manualmente, ya no son suficientes ni efectivas. Las organizaciones necesitan soluciones de coincidencia de datos de clase mundial que ofrezcan preparación, limpieza y transformación de datos como parte del proceso. Además, una tecnología de coincidencia de datos inteligente debe contar con múltiples algoritmos para abordar las sutilezas de los datos y reducir errores.

Los beneficios reales de la coincidencia de datos solo se pueden experimentar cuando el proceso de coincidencia es rápido, fácil de implementar y ofrece coincidencias precisas. WinPure es la única herramienta de coincidencia de datos en la industria que cumple con todos los requisitos de una solución moderna, fácil de usar y asequible para empresas de todos los tipos y tamaños.

¿Desea hablar con nuestro especialista en soluciones de coincidencia de datos y ver la demostración? ¡Póngase en contacto!»

youtube

Author

  • : Author

    The WinPure Team shares official updates on our products, features, and company news. From new releases and enhancements to behind-the-scenes developments, this space keeps you informed on how WinPure continues to deliver secure, reliable, and innovative data quality solutions.

Start Your 30-Day Trial!

Secure desktop tool.
No credit card required.

  • Match & deduplicate records
  • Clean and standardize data
  • Use Entity AI deduplication
  • View data patterns

  • ... and much more!
Índice