Discretization von Sensordaten mit fehlenden Werten für die vorausschauende Wartung

Geschäftskontext

Ein Industrieunternehmen analysiert Sensordaten (Druck, Temperatur) von Maschinen, um Ausfälle vorherzusagen. Die Daten sind verrauscht und enthalten häufig fehlende Werte, wenn Sensoren temporär ausfallen. Die Analyse muss diese fehlenden Werte explizit als separate, potenziell informative Kategorie behandeln. Zudem ist die Zuordnung von Grenzwerten kritisch.

Über das Set : dataPreprocess

Datenbereinigung, Imputation und Vorverarbeitung.

Entdecken Sie alle Aktionen von dataPreprocess

Datenaufbereitung

Erstellt eine Tabelle 'SENSORDATEN' mit absichtlich eingefügten fehlenden Werten ('.') und Werten, die genau auf die Grenzen der Bins fallen werden (z.B. 20, 40, 60, 80).

Kopiert!

1	DATA mycas.SENSORDATEN;
2	INPUT MaschinenID Sensor_Druck Sensor_Temperatur;
3	DATALINES;
4	1 10 150
5	2 20 160
6	3 . 175
7	4 35 .
8	5 40 180
9	6 55 199
10	7 60 210
11	8 75 220
12	9 80 240
13	10 99 255
14	11 . .
15	;
16	RUN;

Étapes de réalisation

Ausführung der 'binning'-Aktion mit der 'BUCKET'-Methode. 'binMissing' ist auf TRUE gesetzt, um fehlende Werte in einem separaten Bin (ID 0) zu erfassen. 'binMapping' ist auf 'LEFT' gesetzt, um die nicht standardmäßige Grenzbehandlung zu testen.

Kopiert!

1	PROC CAS;
2	dataPreprocess.binning /
3	TABLE={name='SENSORDATEN'},
4	method='BUCKET',
5	inputs={{name='Sensor_Druck'}, {name='Sensor_Temperatur'}},
6	nBinsArray=5,
7	binMissing=true,
8	binMapping='LEFT',
9	copyVars={'MaschinenID'},
10	outVarsNameSuffix='_Binned_Bucket',
11	casOut={name='SENSORDATEN_GEBINNT', replace=true};
12	RUN;

Anzeigen der Ergebnisse, um die Zuordnung von fehlenden Werten und Grenzwerten zu überprüfen.

Kopiert!

1	PROC CAS;
2	TABLE.fetch /
3	TABLE={name='SENSORDATEN_GEBINNT'};
4	RUN;

Erwartetes Ergebnis

Die Ausgabetabelle 'SENSORDATEN_GEBINNT' wird erstellt. Die neuen gebinnten Variablen ('Sensor_Druck_Binned_Bucket', 'Sensor_Temperatur_Binned_Bucket') müssen den Wert 0 für alle Zeilen haben, in denen der ursprüngliche Sensorwert fehlte (z.B. MaschinenID 3, 4, 11). Werte, die auf einer Bin-Grenze liegen (z.B. 20, 40, 60, 80 für Druck), werden aufgrund der 'LEFT'-Zuordnung (Notation [], (]) dem *oberen* Intervall zugeordnet. Zum Beispiel, wenn ein Bin von (0, 20] und das nächste von (20, 40] ist, wird der Wert 20 dem ersten Bin zugeordnet.

Voir la documentation technique de binning