Datenmigration mit fehlenden Werten und Duplikaten (Cas Limite)

Geschäftskontext

Bei der Migration von Kundendaten aus einem Altsystem (Legacy) in ein neues CRM-System treten häufig Datenqualitätsprobleme auf. Es gibt Kunden ohne ID (Nullwerte) und Duplikate. Das Qualitätssicherungsteam muss sicherstellen, dass auch diese 'schmutzigen' Daten korrekt identifiziert und verglichen werden, um den Migrationserfolg zu validieren.

Datenaufbereitung

Erstellung von 'legacy_daten' mit Duplikaten und Missing Values, und 'crm_daten' als bereinigte Zielstruktur.

Kopiert!

1
2	DATA casuser.legacy_daten;
3	LENGTH kunden_id $10;
4	INPUT kunden_id $ STATUS $;
5	DATALINES;
6	K001 Aktiv . Unbekannt K001 Aktiv K002 Inaktiv ;
7
8	RUN;
9
10	DATA casuser.crm_daten;
11	LENGTH kunden_id $10;
12	INPUT kunden_id $ STATUS $;
13	DATALINES;
14	K001 Aktiv K002 Inaktiv ;
15
16	RUN;
17

Étapes de réalisation

Vergleich mit Einbeziehung von fehlenden Werten und Duplikaten in der Ausgabe, sowie Filterung nach Häufigkeit.

Kopiert!

1
2	PROC CAS;
3	SIMPLE.compare / TABLE={name='legacy_daten'} table2={name='crm_daten'} inputs={'kunden_id', 'status'} includeMissing=TRUE includeDuplicates={'CASOUT'} minFrequency=1 casOut={name='legacy_probleme', replace=true};
4
5	RUN;
6

Erwartetes Ergebnis

Die Tabelle 'legacy_probleme' sollte den Datensatz mit der fehlenden Kunden-ID ('.') enthalten, da 'includeMissing=TRUE' gesetzt ist. Zudem sollten aufgrund von 'includeDuplicates' beide Einträge für 'K001' aus dem Legacy-System berücksichtigt werden, falls sie als Abweichung zur Zielmenge (1 im CRM vs 2 im Legacy) erkannt werden.

Voir la documentation technique de compare