Performance-Test: Parallele Validierung für Predictive Maintenance (Random Forest)

Geschäftskontext

Ein Fertigungsunternehmen analysiert Sensordaten von Tausenden von Maschinen, um Ausfälle vorherzusagen. Aufgrund des hohen Datenvolumens und der Komplexität des 'Forest'-Modells (Random Forest) ist die Rechenzeit kritisch. Der Test soll verifizieren, ob die parallele Ausführung der Folds die Validierungszeit signifikant reduziert.

Datenaufbereitung

Erstellung eines großen Datensatzes 'maschinen_sensoren' mit Sensordaten.

Kopiert!

1
2	DATA casuser.maschinen_sensoren;
3	call streaminit(999);
4	DO maschine_id = 1 to 5000;
5	temperatur = rand('Normal', 80, 5);
6	vibration = rand('Gamma', 2, 2);
7	druck = rand('Uniform', 10, 50);
8	betriebsstunden = rand('Exponential', 1000);
9	IF temperatur > 90 and vibration > 5 THEN defekt = 1;
10	ELSE defekt = 0;
11	OUTPUT;
12	END;
13
14	RUN;
15

Étapes de réalisation

Ausführung einer 10-fachen Kreuzvalidierung im Parallel-Modus mit Gradient Boosting.

Kopiert!

1
2	PROC CAS;
3	mlTools.crossValidate / TABLE={name='maschinen_sensoren'}, modelType='FOREST', kFolds=10, parallelFolds=TRUE, nSubsessionWorkers=2, trainOptions={ target='defekt', inputs={'temperatur', 'vibration', 'druck', 'betriebsstunden'}, nTrees=50 };
4
5	RUN;
6

Erwartetes Ergebnis

Die Aktion nutzt mehrere Worker-Sessions parallel, um die 10 Folds zu berechnen. Das Protokoll zeigt den Start von Sub-Sessions an, und die Gesamtlaufzeit ist im Vergleich zur seriellen Ausführung reduziert. Ein validiertes Forest-Modell wird ausgegeben.

Voir la documentation technique de crossValidate