Scénario de test & Cas d'usage
Automatisiertes maschinelles Lernen (AutoML) und Pipeline-Generierung.
Entdecken Sie alle Aktionen von dataSciencePilotGenerierung eines großen Datensatzes (100.000 Zeilen) zur Simulation von IoT-Sensordaten mit vielen eindeutigen Sensor-IDs und zufällig fehlenden Messwerten.
| 1 | DATA mycas.IOT_SENSOR_DATEN (promote=yes); |
| 2 | DO i = 1 to 100000; |
| 3 | SensorID = 'Sensor_' || left(put(ceil(rand('UNIFORM') * 5000), 8.)); |
| 4 | IF rand('UNIFORM') < 0.05 THEN Temperatur = .; |
| 5 | ELSE Temperatur = 20 + rand('NORMAL', 0, 5); |
| 6 | IF rand('UNIFORM') < 0.08 THEN Druck = .; |
| 7 | ELSE Druck = 1013 + rand('NORMAL', 0, 20); |
| 8 | IF rand('UNIFORM') < 0.02 THEN Vibration = .; |
| 9 | ELSE Vibration = 5 + rand('NORMAL', 0, 1.5); |
| 10 | OUTPUT; |
| 11 | END; |
| 12 | RUN; |
| 1 | PROC CAS; |
| 2 | dataSciencePilot.analyzeMissingPatterns |
| 3 | TABLE={name='IOT_SENSOR_DATEN'}, |
| 4 | nominals={'SensorID'}, |
| 5 | distinctCountLimit=1000, |
| 6 | casOut={name='iot_patterns_fail', replace=true}; |
| 7 | RUN; |
| 8 | QUIT; |
| 1 | PROC CAS; |
| 2 | dataSciencePilot.analyzeMissingPatterns |
| 3 | TABLE={name='IOT_SENSOR_DATEN'}, |
| 4 | nominals={'SensorID'}, |
| 5 | distinctCountLimit=1000, |
| 6 | misraGries=TRUE, |
| 7 | casOut={name='iot_patterns_success', replace=true}; |
| 8 | RUN; |
| 9 | QUIT; |
Der erste Schritt sollte eine Warnung im Protokoll erzeugen, die besagt, dass das `distinctCountLimit` überschritten wurde. Der zweite Schritt mit `misraGries=TRUE` soll erfolgreich abgeschlossen werden. Die Ausgabetabelle 'iot_patterns_success' wird eine geschätzte Häufigkeit der Muster fehlender Werte liefern und damit die Fähigkeit der Aktion demonstrieren, mit hochkardinalen Daten umzugehen und skalierbare Analysen zu ermöglichen.