dataPreprocess binning

Discretization von Sensordaten mit fehlenden Werten für die vorausschauende Wartung

Scénario de test & Cas d'usage

Geschäftskontext

Ein Industrieunternehmen analysiert Sensordaten (Druck, Temperatur) von Maschinen, um Ausfälle vorherzusagen. Die Daten sind verrauscht und enthalten häufig fehlende Werte, wenn Sensoren temporär ausfallen. Die Analyse muss diese fehlenden Werte explizit als separate, potenziell informative Kategorie behandeln. Zudem ist die Zuordnung von Grenzwerten kritisch.
Über das Set : dataPreprocess

Datenbereinigung, Imputation und Vorverarbeitung.

Entdecken Sie alle Aktionen von dataPreprocess
Datenaufbereitung

Erstellt eine Tabelle 'SENSORDATEN' mit absichtlich eingefügten fehlenden Werten ('.') und Werten, die genau auf die Grenzen der Bins fallen werden (z.B. 20, 40, 60, 80).

Kopiert!
1DATA mycas.SENSORDATEN;
2 INPUT MaschinenID Sensor_Druck Sensor_Temperatur;
3 DATALINES;
41 10 150
52 20 160
63 . 175
74 35 .
85 40 180
96 55 199
107 60 210
118 75 220
129 80 240
1310 99 255
1411 . .
15;
16RUN;

Étapes de réalisation

1
Ausführung der 'binning'-Aktion mit der 'BUCKET'-Methode. 'binMissing' ist auf TRUE gesetzt, um fehlende Werte in einem separaten Bin (ID 0) zu erfassen. 'binMapping' ist auf 'LEFT' gesetzt, um die nicht standardmäßige Grenzbehandlung zu testen.
Kopiert!
1PROC CAS;
2 dataPreprocess.binning /
3 TABLE={name='SENSORDATEN'},
4 method='BUCKET',
5 inputs={{name='Sensor_Druck'}, {name='Sensor_Temperatur'}},
6 nBinsArray=5,
7 binMissing=true,
8 binMapping='LEFT',
9 copyVars={'MaschinenID'},
10 outVarsNameSuffix='_Binned_Bucket',
11 casOut={name='SENSORDATEN_GEBINNT', replace=true};
12RUN;
2
Anzeigen der Ergebnisse, um die Zuordnung von fehlenden Werten und Grenzwerten zu überprüfen.
Kopiert!
1PROC CAS;
2 TABLE.fetch /
3 TABLE={name='SENSORDATEN_GEBINNT'};
4RUN;

Erwartetes Ergebnis


Die Ausgabetabelle 'SENSORDATEN_GEBINNT' wird erstellt. Die neuen gebinnten Variablen ('Sensor_Druck_Binned_Bucket', 'Sensor_Temperatur_Binned_Bucket') müssen den Wert 0 für alle Zeilen haben, in denen der ursprüngliche Sensorwert fehlte (z.B. MaschinenID 3, 4, 11). Werte, die auf einer Bin-Grenze liegen (z.B. 20, 40, 60, 80 für Druck), werden aufgrund der 'LEFT'-Zuordnung (Notation [], (]) dem *oberen* Intervall zugeordnet. Zum Beispiel, wenn ein Bin von (0, 20] und das nächste von (20, 40] ist, wird der Wert 20 dem ersten Bin zugeordnet.