Verteilung und Globalisierung massiver Sensordaten für High-Performance-Analytics

Geschäftskontext

In einer 'Smart Factory' werden Millionen von Sensordatenpunkten gesammelt. Für eine nachgelagerte komplexe Analyse (z. B. Predictive Maintenance) müssen diese Rohdaten in eine dedizierte Analytics-Bibliothek verschoben werden. Entscheidend ist, dass die Daten dabei optimal auf alle verfügbaren Worker-Knoten verteilt werden (`distributeRows`), um die parallele Verarbeitungsgeschwindigkeit zu maximieren, und dass die Tabelle für alle Analysten global verfügbar ist (`promote`).

Über das Set : table

Laden, Speichern und Verwalten von Tabellen im Arbeitsspeicher.

Entdecken Sie alle Aktionen von table

Datenaufbereitung

Simulation eines großen Datensatzes mit Sensormesswerten.

Kopiert!

1	DATA work.sensor_stream;
2	DO i=1 to 50000;
3	sensor_id = mod(i, 50);
4	messwert = rand('Normal', 100, 10);
5	zeitstempel = datetime();
6	OUTPUT;
7	END;
8	RUN;
9	PROC CASUTIL; load DATA=work.sensor_stream outcaslib="casuser" casout="SENSOR_STREAM_RAW" replace; RUN; QUIT;

Étapes de réalisation

Kopieren der Tabelle mit erzwungener Zeilenverteilung und globaler Bereitstellung (Promote).

Kopiert!

1	PROC CAS;
2	TABLE.copyTable /
3	TABLE={caslib="casuser", name="SENSOR_STREAM_RAW"}
4	casout={caslib="casuser", name="SENSOR_ANALYTICS_READY", promote=true}
5	distributeRows=true;
6	RUN;

Erwartetes Ergebnis

Die Tabelle 'SENSOR_ANALYTICS_READY' wird erstellt und hat einen globalen Geltungsbereich (sichtbar für andere User). Die Zeilen sind gleichmäßig über die Worker-Knoten verteilt, was durch eine Überprüfung der Tabellenverteilung (z.B. mit tableDetails) bestätigt werden könnte.

Voir la documentation technique de copyTable