Scénario de test & Cas d'usage
Datenbereinigung, Imputation und Vorverarbeitung.
Entdecken Sie alle Aktionen von dataPreprocessErstellt eine Tabelle 'SENSORDATEN' mit absichtlich eingefügten fehlenden Werten ('.') und Werten, die genau auf die Grenzen der Bins fallen werden (z.B. 20, 40, 60, 80).
| 1 | DATA mycas.SENSORDATEN; |
| 2 | INPUT MaschinenID Sensor_Druck Sensor_Temperatur; |
| 3 | DATALINES; |
| 4 | 1 10 150 |
| 5 | 2 20 160 |
| 6 | 3 . 175 |
| 7 | 4 35 . |
| 8 | 5 40 180 |
| 9 | 6 55 199 |
| 10 | 7 60 210 |
| 11 | 8 75 220 |
| 12 | 9 80 240 |
| 13 | 10 99 255 |
| 14 | 11 . . |
| 15 | ; |
| 16 | RUN; |
| 1 | PROC CAS; |
| 2 | dataPreprocess.binning / |
| 3 | TABLE={name='SENSORDATEN'}, |
| 4 | method='BUCKET', |
| 5 | inputs={{name='Sensor_Druck'}, {name='Sensor_Temperatur'}}, |
| 6 | nBinsArray=5, |
| 7 | binMissing=true, |
| 8 | binMapping='LEFT', |
| 9 | copyVars={'MaschinenID'}, |
| 10 | outVarsNameSuffix='_Binned_Bucket', |
| 11 | casOut={name='SENSORDATEN_GEBINNT', replace=true}; |
| 12 | RUN; |
| 1 | PROC CAS; |
| 2 | TABLE.fetch / |
| 3 | TABLE={name='SENSORDATEN_GEBINNT'}; |
| 4 | RUN; |
Die Ausgabetabelle 'SENSORDATEN_GEBINNT' wird erstellt. Die neuen gebinnten Variablen ('Sensor_Druck_Binned_Bucket', 'Sensor_Temperatur_Binned_Bucket') müssen den Wert 0 für alle Zeilen haben, in denen der ursprüngliche Sensorwert fehlte (z.B. MaschinenID 3, 4, 11). Werte, die auf einer Bin-Grenze liegen (z.B. 20, 40, 60, 80 für Druck), werden aufgrund der 'LEFT'-Zuordnung (Notation [], (]) dem *oberen* Intervall zugeordnet. Zum Beispiel, wenn ein Bin von (0, 20] und das nächste von (20, 40] ist, wird der Wert 20 dem ersten Bin zugeordnet.