simple compare

Datenmigration mit fehlenden Werten und Duplikaten (Cas Limite)

Scénario de test & Cas d'usage

Geschäftskontext

Bei der Migration von Kundendaten aus einem Altsystem (Legacy) in ein neues CRM-System treten häufig Datenqualitätsprobleme auf. Es gibt Kunden ohne ID (Nullwerte) und Duplikate. Das Qualitätssicherungsteam muss sicherstellen, dass auch diese 'schmutzigen' Daten korrekt identifiziert und verglichen werden, um den Migrationserfolg zu validieren.
Datenaufbereitung

Erstellung von 'legacy_daten' mit Duplikaten und Missing Values, und 'crm_daten' als bereinigte Zielstruktur.

Kopiert!
1 
2DATA casuser.legacy_daten;
3LENGTH kunden_id $10;
4INPUT kunden_id $ STATUS $;
5DATALINES;
6K001 Aktiv . Unbekannt K001 Aktiv K002 Inaktiv ;
7 
8RUN;
9 
10DATA casuser.crm_daten;
11LENGTH kunden_id $10;
12INPUT kunden_id $ STATUS $;
13DATALINES;
14K001 Aktiv K002 Inaktiv ;
15 
16RUN;
17 

Étapes de réalisation

1
Vergleich mit Einbeziehung von fehlenden Werten und Duplikaten in der Ausgabe, sowie Filterung nach Häufigkeit.
Kopiert!
1 
2PROC CAS;
3SIMPLE.compare / TABLE={name='legacy_daten'} table2={name='crm_daten'} inputs={'kunden_id', 'status'} includeMissing=TRUE includeDuplicates={'CASOUT'} minFrequency=1 casOut={name='legacy_probleme', replace=true};
4 
5RUN;
6 

Erwartetes Ergebnis


Die Tabelle 'legacy_probleme' sollte den Datensatz mit der fehlenden Kunden-ID ('.') enthalten, da 'includeMissing=TRUE' gesetzt ist. Zudem sollten aufgrund von 'includeDuplicates' beide Einträge für 'K001' aus dem Legacy-System berücksichtigt werden, falls sie als Abweichung zur Zielmenge (1 im CRM vs 2 im Legacy) erkannt werden.