Diese Aktion ist Teil des Data Science Pilot Action Sets und dient der Automatisierung von Data-Science-Workflows, einschließlich der Exploration, Ausführung und Bewertung von automatischen Machine-Learning-Pipelines. Die Aktion "generateShadowFeatures" generiert Schattenmerkmale (Shadow Features).
| Parámetro | Descripción |
|---|---|
| casOut | Gibt die CAS-Tabelle an, in der die Analyseergebnisse gespeichert werden sollen. Die "casouttable"-Werte können einen oder mehrere der folgenden Parameter enthalten: caslib (gibt den Namen der Caslib für die Ausgabetabelle an), indexVars (gibt die Liste der Variablen an, für die Indizes in den Ausgabedaten erstellt werden sollen), lifetime (gibt die Anzahl der Sekunden an, für die die Tabelle im Speicher bleiben soll, nachdem sie zuletzt aufgerufen wurde; Standardwert ist 0, Minimalwert ist 0), memoryFormat (gibt das Speicherformat für die Ausgabetabelle an; Standardwert ist INHERIT), name (gibt den Namen für die Ausgabetabelle an), promote (wenn auf TRUE gesetzt, wird die Ausgabetabelle mit globalem Geltungsbereich hinzugefügt, sodass andere Sitzungen, vorbehaltlich der Zugriffskontrollen, auf die Tabelle zugreifen können; der Ziel-Caslib muss ebenfalls einen globalen Geltungsbereich haben; Standardwert ist FALSE), replace (wenn auf TRUE gesetzt, wird eine vorhandene Tabelle mit demselben Namen überschrieben; Standardwert ist FALSE), tableRedistUpPolicy (gibt die Umverteilungsrichtlinie für Tabellen an, wenn die Anzahl der Worker-Pods auf einem laufenden CAS-Server zunimmt; Optionen sind DEFER, NOREDIST, REBALANCE). |
| copyVars | Gibt die Namen der Variablen an, die in die Ausgabetabelle kopiert werden sollen. |
| distinctCountLimit | Gibt das Limit für die Anzahl der eindeutigen Werte an. Wenn das Limit überschritten wird und der Parameter "misraGries" auf TRUE gesetzt ist, wird der Misra-Gries-Frequenzschätzalgorithmus zur Schätzung der Häufigkeitsverteilung verwendet. Andernfalls wird der Vorgang zum Zählen eindeutiger Werte abgebrochen. (Standardwert: 10000, Minimalwert: 256) |
| ecdfTolerance | Gibt den Toleranzwert für die empirische kumulative Verteilungsfunktion an. Dieser Wert wird vom Quantil-Sketch-Algorithmus verwendet. (Standardwert: 0,001, Bereich: 1E-06–0,1) |
| freq | Gibt die Häufigkeitsvariable an. |
| generateLevels | Gibt an, dass Ebenen anstelle von Rohwerten generiert werden sollen. (Standardwert: FALSE) |
| inputs | Gibt die für die Analyse zu verwendenden Variablen an. Es kann eine Untermenge der Variablen aus der Eingabetabelle angegeben werden. (Alias: vars) |
| misraGries | Wenn auf TRUE gesetzt, wird der Misra-Gries-Algorithmus für die Häufigkeitsverteilungsschätzung verwendet, falls das Limit für die Anzahl der eindeutigen Werte überschritten wird. (Standardwert: TRUE) |
| nominals | Gibt die nominalen Variablen an. |
| nProbes | Gibt die Anzahl der zu generierenden Schattenmerkmale für jede Variable an. (Standardwert: 5, Bereich: 1–20) |
| probeMissing | Wenn auf TRUE gesetzt, werden fehlende Werte mit der beobachteten Fehlerrate generiert. (Standardwert: TRUE) |
| rareThreshold | Gibt den Schwellenwert für seltene Häufigkeiten an. (Alias: rareFreqCutOff, Minimalwert (exklusiv): 0) |
| rareThresholdPercent | Gibt den Prozentsatz des Schwellenwerts für seltene Häufigkeiten an. Ebenen, deren Häufigkeiten unter dem Schwellenwert liegen, werden zusammengefasst. (Alias: rareThresholdPercentage, Bereich: (0, 100)) |
| sample | Gibt die Optionen für das Sampling der Schattenmerkmale an. Der "featureProbeSample"-Wert kann einen oder mehrere der folgenden Parameter enthalten: nRecords (Anzahl der Beobachtungen, die mit dem angegebenen Modell (astore) gesampelt werden sollen; Alias: nObs, Standardwert: 1000, Minimalwert: 1), rstore (gibt eine Eingabe-Blob-Tabelle an, aus der das Modell und der Zustand gelesen werden sollen). |
| saveState | Gibt die CAS-Tabelle an, in der das Transformations- und Generierungsmodell für Merkmale gespeichert werden soll. (Alias: saveModel) |
| seed | Gibt einen Seed-Wert für die Generierung von Zufallszahlen an. Dieser Wert wird für die wiederholbare Generierung von Zufallszahlen in einigen Szenarien verwendet. (Standardwert: 0) |
| table | Gibt den Tabellennamen, Caslib und andere gemeinsame Parameter an. Die "castable"-Werte können einen oder mehrere der folgenden Parameter enthalten: caslib (gibt die Caslib für die Eingabetabelle an, die mit der Aktion verwendet werden soll; Standardwert ist die aktive Caslib), computedOnDemand (wenn auf TRUE gesetzt, werden die berechneten Variablen beim Laden der Tabelle statt beim Starten der Aktion erstellt; Alias: compOnDemand, Standardwert: FALSE), computedVars (gibt die Namen der zu erstellenden berechneten Variablen an; Alias: compVars), computedVarsProgram (gibt einen Ausdruck für jede berechnete Variable an), dataSourceOptions (gibt Datenquellenoptionen an; Alias: options, dataSource), importOptions (gibt die Einstellungen zum Lesen einer Tabelle aus einer Datenquelle an; Alias: import), name (gibt den Namen der Eingabetabelle an), singlePass (wenn auf TRUE gesetzt, wird keine temporäre Tabelle auf dem Server erstellt; Standardwert: FALSE), vars (gibt die in der Aktion zu verwendenden Variablen an), where (gibt einen Ausdruck zum Subsetting der Eingabedaten an), whereTable (gibt eine Eingabetabelle an, die Zeilen enthält, die als WHERE-Filter verwendet werden sollen). |
Da keine expliziten Datenbeispiele im bereitgestellten HTML-Dokument gefunden wurden, ist hier ein allgemeines Beispiel zur Erstellung einer CAS-Tabelle.
| 1 | DATA mycas.input_data; |
| 2 | INPUT var1 var2 $ var3; |
| 3 | DATALINES; |
| 4 | 10 A 100 |
| 5 | 20 B 150 |
| 6 | 30 C 120 |
| 7 | 40 A 110 |
| 8 | 50 B 130 |
| 9 | ; |
| 10 | RUN; |
Dieses Beispiel zeigt die grundlegende Verwendung der Aktion generateShadowFeatures, um Schattenmerkmale für eine vorhandene CAS-Tabelle zu generieren, wobei die Standardeinstellungen für die meisten Parameter verwendet werden.
| 1 | PROC CAS; |
| 2 | SESSION casauto; |
| 3 | dataSciencePilot.generateShadowFeatures / |
| 4 | TABLE={name='input_data', caslib='mycas'}, |
| 5 | casOut={name='shadow_features_output', replace=TRUE}; |
| 6 | RUN; |
| 7 | QUIT; |
Dieses erweiterte Beispiel veranschaulicht die Verwendung von "generateShadowFeatures" mit mehreren benutzerdefinierten Optionen. Es werden nur bestimmte Eingabevariablen berücksichtigt, die Anzahl der Sonden angepasst und fehlende Werte explizit als Teil der Probenerstellung behandelt.
| 1 | PROC CAS; |
| 2 | SESSION casauto; |
| 3 | dataSciencePilot.generateShadowFeatures / |
| 4 | TABLE={name='input_data', caslib='mycas', vars={{name='var1'},{name='var3'}}}, |
| 5 | inputs={{name='var1'},{name='var3'}}, |
| 6 | nProbes=10, |
| 7 | probeMissing=FALSE, |
| 8 | seed=12345, |
| 9 | casOut={name='custom_shadow_features', replace=TRUE}; |
| 10 | RUN; |
| 11 | QUIT; |