Scénario de test & Cas d'usage
Aktives Lernen zur Optimierung der Datenkennzeichnung.
Entdecken Sie alle Aktionen von activeLearnErstellt eine Master-Produkttabelle und eine Annotationstabelle mit Datenqualitätsproblemen: Duplikate, fehlende IDs und verwaiste IDs.
| 1 | DATA casuser.PRODUKT_STAMMDATEN; |
| 2 | INPUT ProduktID $ Preis; |
| 3 | CARDS; |
| 4 | P100 19.99 |
| 5 | P200 25.50 |
| 6 | P300 99.00 |
| 7 | ; |
| 8 | RUN; |
| 9 | |
| 10 | DATA casuser.PRODUKT_BEWERTUNGEN; |
| 11 | LENGTH Bewertung $50; |
| 12 | INPUT ProduktID $ Bewertung $; |
| 13 | CARDS; |
| 14 | P100 Super Produkt! |
| 15 | P200 Hat mir nicht gefallen |
| 16 | P200 Zweite Bewertung fuer P200 |
| 17 | P400 Bewertung fuer ein unbekanntes Produkt |
| 18 | . Bewertung mit fehlender ID |
| 19 | ; |
| 20 | RUN; |
| 1 | PROC CAS; |
| 2 | activeLearn.alJoin / |
| 3 | TABLE={name='PRODUKT_STAMMDATEN', caslib='casuser'}, |
| 4 | annotatedTable={name='PRODUKT_BEWERTUNGEN', caslib='casuser'}, |
| 5 | id='ProduktID', |
| 6 | joinType='FULL', |
| 7 | casOut={name='PRODUKT_JOIN_VOLLSTAENDIG', caslib='casuser', replace=true}; |
| 8 | RUN; |
| 9 | QUIT; |
| 1 | PROC CAS; |
| 2 | TABLE.fetch / |
| 3 | TABLE={name='PRODUKT_JOIN_VOLLSTAENDIG'}; |
| 4 | RUN; |
| 5 | QUIT; |
Die Ausgabetabelle 'PRODUKT_JOIN_VOLLSTAENDIG' enthält alle Zeilen aus beiden Tabellen. P100 wird korrekt verbunden. P200 aus der Stammdatentabelle wird mit beiden P200-Bewertungen verbunden, was zu zwei Zeilen führt. P300 (nur in Stammdaten) hat fehlende Werte für die Bewertungsspalte. P400 (nur in Bewertungen) hat einen fehlenden Wert für die Preisspalte. Die Bewertung mit einer fehlenden ID erscheint in einer separaten Zeile mit einem fehlenden Preis. Dies testet die Fähigkeit des FULL JOIN, mit Eins-zu-Viele-Beziehungen, verwaisten Datensätzen und fehlenden Join-Schlüsseln umzugehen.