Performance-Test: Extraktion eines spezifischen Modells aus großem Bestand für Hadoop

Geschäftskontext

Ein Industrieunternehmen für IoT-Sensoren verwaltet Tausende von Vorhersagemodellen (eines pro Maschinentyp) in einer einzigen, massiven CAS-Tabelle. Für eine historische Analyse im Data Lake muss ein spezifisches, komplexes Modell ('Turbine_X99') effizient aus diesem großen Bestand isoliert und in einen Hadoop-Cluster exportiert werden. Der Test prüft, ob die Aktion auch bei hohem Datenvolumen das richtige Modell korrekt filtert und überträgt.

Datenaufbereitung

Generierung von 1000 Dummy-Modellen, wobei eines das Zielmodell ist.

Kopiert!

1
2	DATA casuser.all_iot_models;
3	LENGTH ModelName $32 ModelContent $1000;
4	DO i=1 to 1000;
5	ModelName=cats('MachineModel_', i);
6	ModelContent='Example content for machine ' \|\| cats(i);
7	OUTPUT;
8	END;
9	ModelName='Turbine_X99';
10	ModelContent='Complex Logic for Turbine X99...';
11	OUTPUT;
12
13	RUN;
14

Étapes de réalisation

Validierung der Anzahl der Modelle in der Quelltabelle.

Kopiert!

1
2	PROC CAS;
3	SIMPLE.numRows / TABLE={caslib="casuser", name="all_iot_models"};
4
5	RUN;
6

Gezielter Export nur des Modells 'Turbine_X99' nach Hadoop.

Kopiert!

1
2	PROC CAS;
3	ACTION modelPublishing.copyModelExternal / modelTable={caslib="casuser", name="all_iot_models"} modelName="Turbine_X99" externalCaslib="HadoopLake" externalOptions={extType="HADOOP", modelDatabase="archive_models"};
4
5	RUN;
6

Erwartetes Ergebnis

Trotz der Größe der Quelltabelle wird ausschließlich das Modell 'Turbine_X99' in Hadoop erstellt. Die anderen 1000 Modelle werden ignoriert. Die Performance ist akzeptabel und das Zielsystem enthält den korrekten Modellinhalt.

Voir la documentation technique de copyModelExternal