dataSciencePilot

generateShadowFeatures

Descripción

Diese Aktion ist Teil des Data Science Pilot Action Sets und dient der Automatisierung von Data-Science-Workflows, einschließlich der Exploration, Ausführung und Bewertung von automatischen Machine-Learning-Pipelines. Die Aktion "generateShadowFeatures" generiert Schattenmerkmale (Shadow Features).

dataSciencePilot.generateShadowFeatures <result=results> <status=rc> / casOut={ caslib="string", indexVars={"variable-name-1" <, "variable-name-2", ...>}, lifetime=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE" }, copyVars={"variable-name-1" <, "variable-name-2", ...>}, distinctCountLimit=integer, ecdfTolerance=double, freq="variable-name", generateLevels=TRUE | FALSE, inputs={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, misraGries=TRUE | FALSE, nominals={"variable-name-1" <, "variable-name-2", ...>}, nProbes=integer, probeMissing=TRUE | FALSE, rareThreshold=integer, rareThresholdPercent=double, sample={nRecords=64-bit-integer, rstore={ caslib="string", dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>}, name="table-name", whereTable={ casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, where="where-expression" } } }, saveState={ caslib="string", indexVars={"variable-name-1" <, "variable-name-2", ...>}, lifetime=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE" }, seed=integer, table={ caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, computedVarsProgram="string", dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", singlePass=TRUE | FALSE, vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, where="where-expression", whereTable={ casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, where="where-expression" } } };
Parámetros
ParámetroDescripción
casOutGibt die CAS-Tabelle an, in der die Analyseergebnisse gespeichert werden sollen. Die "casouttable"-Werte können einen oder mehrere der folgenden Parameter enthalten: caslib (gibt den Namen der Caslib für die Ausgabetabelle an), indexVars (gibt die Liste der Variablen an, für die Indizes in den Ausgabedaten erstellt werden sollen), lifetime (gibt die Anzahl der Sekunden an, für die die Tabelle im Speicher bleiben soll, nachdem sie zuletzt aufgerufen wurde; Standardwert ist 0, Minimalwert ist 0), memoryFormat (gibt das Speicherformat für die Ausgabetabelle an; Standardwert ist INHERIT), name (gibt den Namen für die Ausgabetabelle an), promote (wenn auf TRUE gesetzt, wird die Ausgabetabelle mit globalem Geltungsbereich hinzugefügt, sodass andere Sitzungen, vorbehaltlich der Zugriffskontrollen, auf die Tabelle zugreifen können; der Ziel-Caslib muss ebenfalls einen globalen Geltungsbereich haben; Standardwert ist FALSE), replace (wenn auf TRUE gesetzt, wird eine vorhandene Tabelle mit demselben Namen überschrieben; Standardwert ist FALSE), tableRedistUpPolicy (gibt die Umverteilungsrichtlinie für Tabellen an, wenn die Anzahl der Worker-Pods auf einem laufenden CAS-Server zunimmt; Optionen sind DEFER, NOREDIST, REBALANCE).
copyVarsGibt die Namen der Variablen an, die in die Ausgabetabelle kopiert werden sollen.
distinctCountLimitGibt das Limit für die Anzahl der eindeutigen Werte an. Wenn das Limit überschritten wird und der Parameter "misraGries" auf TRUE gesetzt ist, wird der Misra-Gries-Frequenzschätzalgorithmus zur Schätzung der Häufigkeitsverteilung verwendet. Andernfalls wird der Vorgang zum Zählen eindeutiger Werte abgebrochen. (Standardwert: 10000, Minimalwert: 256)
ecdfToleranceGibt den Toleranzwert für die empirische kumulative Verteilungsfunktion an. Dieser Wert wird vom Quantil-Sketch-Algorithmus verwendet. (Standardwert: 0,001, Bereich: 1E-06–0,1)
freqGibt die Häufigkeitsvariable an.
generateLevelsGibt an, dass Ebenen anstelle von Rohwerten generiert werden sollen. (Standardwert: FALSE)
inputsGibt die für die Analyse zu verwendenden Variablen an. Es kann eine Untermenge der Variablen aus der Eingabetabelle angegeben werden. (Alias: vars)
misraGriesWenn auf TRUE gesetzt, wird der Misra-Gries-Algorithmus für die Häufigkeitsverteilungsschätzung verwendet, falls das Limit für die Anzahl der eindeutigen Werte überschritten wird. (Standardwert: TRUE)
nominalsGibt die nominalen Variablen an.
nProbesGibt die Anzahl der zu generierenden Schattenmerkmale für jede Variable an. (Standardwert: 5, Bereich: 1–20)
probeMissingWenn auf TRUE gesetzt, werden fehlende Werte mit der beobachteten Fehlerrate generiert. (Standardwert: TRUE)
rareThresholdGibt den Schwellenwert für seltene Häufigkeiten an. (Alias: rareFreqCutOff, Minimalwert (exklusiv): 0)
rareThresholdPercentGibt den Prozentsatz des Schwellenwerts für seltene Häufigkeiten an. Ebenen, deren Häufigkeiten unter dem Schwellenwert liegen, werden zusammengefasst. (Alias: rareThresholdPercentage, Bereich: (0, 100))
sampleGibt die Optionen für das Sampling der Schattenmerkmale an. Der "featureProbeSample"-Wert kann einen oder mehrere der folgenden Parameter enthalten: nRecords (Anzahl der Beobachtungen, die mit dem angegebenen Modell (astore) gesampelt werden sollen; Alias: nObs, Standardwert: 1000, Minimalwert: 1), rstore (gibt eine Eingabe-Blob-Tabelle an, aus der das Modell und der Zustand gelesen werden sollen).
saveStateGibt die CAS-Tabelle an, in der das Transformations- und Generierungsmodell für Merkmale gespeichert werden soll. (Alias: saveModel)
seedGibt einen Seed-Wert für die Generierung von Zufallszahlen an. Dieser Wert wird für die wiederholbare Generierung von Zufallszahlen in einigen Szenarien verwendet. (Standardwert: 0)
tableGibt den Tabellennamen, Caslib und andere gemeinsame Parameter an. Die "castable"-Werte können einen oder mehrere der folgenden Parameter enthalten: caslib (gibt die Caslib für die Eingabetabelle an, die mit der Aktion verwendet werden soll; Standardwert ist die aktive Caslib), computedOnDemand (wenn auf TRUE gesetzt, werden die berechneten Variablen beim Laden der Tabelle statt beim Starten der Aktion erstellt; Alias: compOnDemand, Standardwert: FALSE), computedVars (gibt die Namen der zu erstellenden berechneten Variablen an; Alias: compVars), computedVarsProgram (gibt einen Ausdruck für jede berechnete Variable an), dataSourceOptions (gibt Datenquellenoptionen an; Alias: options, dataSource), importOptions (gibt die Einstellungen zum Lesen einer Tabelle aus einer Datenquelle an; Alias: import), name (gibt den Namen der Eingabetabelle an), singlePass (wenn auf TRUE gesetzt, wird keine temporäre Tabelle auf dem Server erstellt; Standardwert: FALSE), vars (gibt die in der Aktion zu verwendenden Variablen an), where (gibt einen Ausdruck zum Subsetting der Eingabedaten an), whereTable (gibt eine Eingabetabelle an, die Zeilen enthält, die als WHERE-Filter verwendet werden sollen).
Daten erstellen

Da keine expliziten Datenbeispiele im bereitgestellten HTML-Dokument gefunden wurden, ist hier ein allgemeines Beispiel zur Erstellung einer CAS-Tabelle.

¡Copiado!
1DATA mycas.input_data;
2 INPUT var1 var2 $ var3;
3 DATALINES;
410 A 100
520 B 150
630 C 120
740 A 110
850 B 130
9;
10RUN;

Ejemplos

Dieses Beispiel zeigt die grundlegende Verwendung der Aktion generateShadowFeatures, um Schattenmerkmale für eine vorhandene CAS-Tabelle zu generieren, wobei die Standardeinstellungen für die meisten Parameter verwendet werden.

Código SAS® / CAS Código en espera de validación por la comunidad
¡Copiado!
1PROC CAS;
2 SESSION casauto;
3 dataSciencePilot.generateShadowFeatures /
4 TABLE={name='input_data', caslib='mycas'},
5 casOut={name='shadow_features_output', replace=TRUE};
6 RUN;
7QUIT;
Resultado :
Eine neue CAS-Tabelle mit dem Namen 'shadow_features_output' wird in der Caslib 'mycas' erstellt, die die generierten Schattenmerkmale basierend auf den Variablen in 'input_data' enthält.

Dieses erweiterte Beispiel veranschaulicht die Verwendung von "generateShadowFeatures" mit mehreren benutzerdefinierten Optionen. Es werden nur bestimmte Eingabevariablen berücksichtigt, die Anzahl der Sonden angepasst und fehlende Werte explizit als Teil der Probenerstellung behandelt.

Código SAS® / CAS Código en espera de validación por la comunidad
¡Copiado!
1PROC CAS;
2 SESSION casauto;
3 dataSciencePilot.generateShadowFeatures /
4 TABLE={name='input_data', caslib='mycas', vars={{name='var1'},{name='var3'}}},
5 inputs={{name='var1'},{name='var3'}},
6 nProbes=10,
7 probeMissing=FALSE,
8 seed=12345,
9 casOut={name='custom_shadow_features', replace=TRUE};
10 RUN;
11QUIT;
Resultado :
Eine neue CAS-Tabelle mit dem Namen 'custom_shadow_features' wird erstellt. Diese Tabelle enthält Schattenmerkmale, die nur aus 'var1' und 'var3' der Eingabetabelle generiert wurden, wobei 10 Sonden pro Variable verwendet und fehlende Werte nicht speziell probiert werden, mit einem festen Zufalls-Seed für Reproduzierbarkeit.

FAQ

Was ist die Aktion generateShadowFeatures?
Was ist der Zweck der Aktion generateShadowFeatures im Data Science Pilot Action Set?
Was ist der Parameter 'casOut' und welche Unterparameter gibt es?
Was ist der Parameter 'copyVars'?
Was ist der Parameter 'distinctCountLimit'?
Was ist der Parameter 'ecdfTolerance'?
Was ist der Parameter 'freq'?
Was ist der Parameter 'generateLevels'?
Was ist der Parameter 'inputs'?
Was ist der Parameter 'misraGries'?
Was ist der Parameter 'nominals'?
Was ist der Parameter 'nProbes'?
Was ist der Parameter 'probeMissing'?
Was ist der Parameter 'rareThreshold'?
Was ist der Parameter 'rareThresholdPercent'?
Was ist der Parameter 'sample' und welche Unterparameter gibt es?
Was ist der Parameter 'saveState' und welche Unterparameter gibt es?
Was ist der Parameter 'seed'?
Was ist der Parameter 'table' und welche Unterparameter gibt es?