generateShadowFeatures

Q: Was ist die Aktion generateShadowFeatures?

Die Aktion generateShadowFeatures generiert Schattenmerkmale.

Q: Was ist der Zweck der Aktion generateShadowFeatures im Data Science Pilot Action Set?

Die Aktion generateShadowFeatures im Data Science Pilot Action Set generiert Schattenmerkmale.

Q: Was ist der Parameter 'casOut' und welche Unterparameter gibt es?

Der Parameter 'casOut' gibt die CAS-Tabelle an, in der die Analyseergebnisse gespeichert werden sollen. Er akzeptiert folgende Unterparameter: caslib (Name der Caslib), indexVars (Liste der Variablen für Indexe), lifetime (Anzahl der Sekunden, um die Tabelle im Speicher zu halten), memoryFormat (Speicherformat wie 'DVR', 'INHERIT', 'STANDARD'), name (Name der Ausgabetabelle), promote (Tabelle mit globalem Geltungsbereich), replace (überschreibt bestehende Tabelle), tableRedistUpPolicy (Richtlinie für die Tabellenumverteilung).

Q: Was ist der Parameter 'copyVars'?

Der Parameter 'copyVars' gibt die Namen der Variablen an, die in die Ausgabetabelle kopiert werden sollen.

Q: Was ist der Parameter 'distinctCountLimit'?

Der Parameter 'distinctCountLimit' gibt das Limit für die Anzahl der unterschiedlichen Werte an. Wird das Limit überschritten und 'misraGries' ist auf 'True' gesetzt, wird der Misra-Gries-Häufigkeitsskizzenalgorithmus zur Schätzung der Häufigkeitsverteilung verwendet. Andernfalls wird der Vorgang für die Anzahl der unterschiedlichen Werte abgebrochen. Der Standardwert ist 10000 und der Mindestwert ist 256.

Q: Was ist der Parameter 'ecdfTolerance'?

Der Parameter 'ecdfTolerance' gibt den Toleranzwert für die empirische kumulative Verteilungsfunktion an. Dieser Wert wird vom Quantilskizzenalgorithmus verwendet. Der Standardwert ist 0.001 und der Bereich liegt zwischen 1E-06 und 0.1.

Q: Was ist der Parameter 'freq'?

Der Parameter 'freq' gibt die Häufigkeitsvariable an.

Q: Was ist der Parameter 'generateLevels'?

Der Parameter 'generateLevels' gibt an, ob Levels anstelle von Rohwerten generiert werden sollen. Der Standardwert ist FALSE.

Q: Was ist der Parameter 'inputs'?

Der Parameter 'inputs' gibt die für die Analyse zu verwendenden Variablen an. Es kann eine Untermenge der Variablen aus der Eingabetabelle angegeben werden. Ein Alias für diesen Parameter ist 'vars'.

Q: Was ist der Parameter 'misraGries'?

Wenn der Parameter 'misraGries' auf 'True' gesetzt ist, wird der Misra-Gries-Algorithmus zur Schätzung der Häufigkeitsverteilung verwendet, falls das Limit für die Anzahl der unterschiedlichen Werte überschritten wird. Der Standardwert ist TRUE.

Descripción

Diese Aktion ist Teil des Data Science Pilot Action Sets und dient der Automatisierung von Data-Science-Workflows, einschließlich der Exploration, Ausführung und Bewertung von automatischen Machine-Learning-Pipelines. Die Aktion "generateShadowFeatures" generiert Schattenmerkmale (Shadow Features).

dataSciencePilot.generateShadowFeatures <result=results> <status=rc> / casOut={ caslib="string", indexVars={"variable-name-1" <, "variable-name-2", ...>}, lifetime=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE" }, copyVars={"variable-name-1" <, "variable-name-2", ...>}, distinctCountLimit=integer, ecdfTolerance=double, freq="variable-name", generateLevels=TRUE | FALSE, inputs={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, misraGries=TRUE | FALSE, nominals={"variable-name-1" <, "variable-name-2", ...>}, nProbes=integer, probeMissing=TRUE | FALSE, rareThreshold=integer, rareThresholdPercent=double, sample={nRecords=64-bit-integer, rstore={ caslib="string", dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>}, name="table-name", whereTable={ casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, where="where-expression" } } }, saveState={ caslib="string", indexVars={"variable-name-1" <, "variable-name-2", ...>}, lifetime=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE" }, seed=integer, table={ caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, computedVarsProgram="string", dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", singlePass=TRUE | FALSE, vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, where="where-expression", whereTable={ casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, where="where-expression" } } };

Parámetros

Parámetro	Descripción
casOut	Gibt die CAS-Tabelle an, in der die Analyseergebnisse gespeichert werden sollen. Die "casouttable"-Werte können einen oder mehrere der folgenden Parameter enthalten: caslib (gibt den Namen der Caslib für die Ausgabetabelle an), indexVars (gibt die Liste der Variablen an, für die Indizes in den Ausgabedaten erstellt werden sollen), lifetime (gibt die Anzahl der Sekunden an, für die die Tabelle im Speicher bleiben soll, nachdem sie zuletzt aufgerufen wurde; Standardwert ist 0, Minimalwert ist 0), memoryFormat (gibt das Speicherformat für die Ausgabetabelle an; Standardwert ist INHERIT), name (gibt den Namen für die Ausgabetabelle an), promote (wenn auf TRUE gesetzt, wird die Ausgabetabelle mit globalem Geltungsbereich hinzugefügt, sodass andere Sitzungen, vorbehaltlich der Zugriffskontrollen, auf die Tabelle zugreifen können; der Ziel-Caslib muss ebenfalls einen globalen Geltungsbereich haben; Standardwert ist FALSE), replace (wenn auf TRUE gesetzt, wird eine vorhandene Tabelle mit demselben Namen überschrieben; Standardwert ist FALSE), tableRedistUpPolicy (gibt die Umverteilungsrichtlinie für Tabellen an, wenn die Anzahl der Worker-Pods auf einem laufenden CAS-Server zunimmt; Optionen sind DEFER, NOREDIST, REBALANCE).
copyVars	Gibt die Namen der Variablen an, die in die Ausgabetabelle kopiert werden sollen.
distinctCountLimit	Gibt das Limit für die Anzahl der eindeutigen Werte an. Wenn das Limit überschritten wird und der Parameter "misraGries" auf TRUE gesetzt ist, wird der Misra-Gries-Frequenzschätzalgorithmus zur Schätzung der Häufigkeitsverteilung verwendet. Andernfalls wird der Vorgang zum Zählen eindeutiger Werte abgebrochen. (Standardwert: 10000, Minimalwert: 256)
ecdfTolerance	Gibt den Toleranzwert für die empirische kumulative Verteilungsfunktion an. Dieser Wert wird vom Quantil-Sketch-Algorithmus verwendet. (Standardwert: 0,001, Bereich: 1E-06–0,1)
freq	Gibt die Häufigkeitsvariable an.
generateLevels	Gibt an, dass Ebenen anstelle von Rohwerten generiert werden sollen. (Standardwert: FALSE)
inputs	Gibt die für die Analyse zu verwendenden Variablen an. Es kann eine Untermenge der Variablen aus der Eingabetabelle angegeben werden. (Alias: vars)
misraGries	Wenn auf TRUE gesetzt, wird der Misra-Gries-Algorithmus für die Häufigkeitsverteilungsschätzung verwendet, falls das Limit für die Anzahl der eindeutigen Werte überschritten wird. (Standardwert: TRUE)
nominals	Gibt die nominalen Variablen an.
nProbes	Gibt die Anzahl der zu generierenden Schattenmerkmale für jede Variable an. (Standardwert: 5, Bereich: 1–20)
probeMissing	Wenn auf TRUE gesetzt, werden fehlende Werte mit der beobachteten Fehlerrate generiert. (Standardwert: TRUE)
rareThreshold	Gibt den Schwellenwert für seltene Häufigkeiten an. (Alias: rareFreqCutOff, Minimalwert (exklusiv): 0)
rareThresholdPercent	Gibt den Prozentsatz des Schwellenwerts für seltene Häufigkeiten an. Ebenen, deren Häufigkeiten unter dem Schwellenwert liegen, werden zusammengefasst. (Alias: rareThresholdPercentage, Bereich: (0, 100))
sample	Gibt die Optionen für das Sampling der Schattenmerkmale an. Der "featureProbeSample"-Wert kann einen oder mehrere der folgenden Parameter enthalten: nRecords (Anzahl der Beobachtungen, die mit dem angegebenen Modell (astore) gesampelt werden sollen; Alias: nObs, Standardwert: 1000, Minimalwert: 1), rstore (gibt eine Eingabe-Blob-Tabelle an, aus der das Modell und der Zustand gelesen werden sollen).
saveState	Gibt die CAS-Tabelle an, in der das Transformations- und Generierungsmodell für Merkmale gespeichert werden soll. (Alias: saveModel)
seed	Gibt einen Seed-Wert für die Generierung von Zufallszahlen an. Dieser Wert wird für die wiederholbare Generierung von Zufallszahlen in einigen Szenarien verwendet. (Standardwert: 0)
table	Gibt den Tabellennamen, Caslib und andere gemeinsame Parameter an. Die "castable"-Werte können einen oder mehrere der folgenden Parameter enthalten: caslib (gibt die Caslib für die Eingabetabelle an, die mit der Aktion verwendet werden soll; Standardwert ist die aktive Caslib), computedOnDemand (wenn auf TRUE gesetzt, werden die berechneten Variablen beim Laden der Tabelle statt beim Starten der Aktion erstellt; Alias: compOnDemand, Standardwert: FALSE), computedVars (gibt die Namen der zu erstellenden berechneten Variablen an; Alias: compVars), computedVarsProgram (gibt einen Ausdruck für jede berechnete Variable an), dataSourceOptions (gibt Datenquellenoptionen an; Alias: options, dataSource), importOptions (gibt die Einstellungen zum Lesen einer Tabelle aus einer Datenquelle an; Alias: import), name (gibt den Namen der Eingabetabelle an), singlePass (wenn auf TRUE gesetzt, wird keine temporäre Tabelle auf dem Server erstellt; Standardwert: FALSE), vars (gibt die in der Aktion zu verwendenden Variablen an), where (gibt einen Ausdruck zum Subsetting der Eingabedaten an), whereTable (gibt eine Eingabetabelle an, die Zeilen enthält, die als WHERE-Filter verwendet werden sollen).

Preparación de datos Ver hoja de preparación de datos

Daten erstellen

Da keine expliziten Datenbeispiele im bereitgestellten HTML-Dokument gefunden wurden, ist hier ein allgemeines Beispiel zur Erstellung einer CAS-Tabelle.

¡Copiado!

1	DATA mycas.input_data;
2	INPUT var1 var2 $ var3;
3	DATALINES;
4	10 A 100
5	20 B 150
6	30 C 120
7	40 A 110
8	50 B 130
9	;
10	RUN;

Ejemplos

Dieses Beispiel zeigt die grundlegende Verwendung der Aktion generateShadowFeatures, um Schattenmerkmale für eine vorhandene CAS-Tabelle zu generieren, wobei die Standardeinstellungen für die meisten Parameter verwendet werden.

Código SAS® / CAS Código en espera de validación por la comunidad

¡Copiado!

1	PROC CAS;
2	SESSION casauto;
3	dataSciencePilot.generateShadowFeatures /
4	TABLE={name='input_data', caslib='mycas'},
5	casOut={name='shadow_features_output', replace=TRUE};
6	RUN;
7	QUIT;

Resultado :
Eine neue CAS-Tabelle mit dem Namen 'shadow_features_output' wird in der Caslib 'mycas' erstellt, die die generierten Schattenmerkmale basierend auf den Variablen in 'input_data' enthält.

Dieses erweiterte Beispiel veranschaulicht die Verwendung von "generateShadowFeatures" mit mehreren benutzerdefinierten Optionen. Es werden nur bestimmte Eingabevariablen berücksichtigt, die Anzahl der Sonden angepasst und fehlende Werte explizit als Teil der Probenerstellung behandelt.

Código SAS® / CAS Código en espera de validación por la comunidad

¡Copiado!

1	PROC CAS;
2	SESSION casauto;
3	dataSciencePilot.generateShadowFeatures /
4	TABLE={name='input_data', caslib='mycas', vars={{name='var1'},{name='var3'}}},
5	inputs={{name='var1'},{name='var3'}},
6	nProbes=10,
7	probeMissing=FALSE,
8	seed=12345,
9	casOut={name='custom_shadow_features', replace=TRUE};
10	RUN;
11	QUIT;

Resultado :
Eine neue CAS-Tabelle mit dem Namen 'custom_shadow_features' wird erstellt. Diese Tabelle enthält Schattenmerkmale, die nur aus 'var1' und 'var3' der Eingabetabelle generiert wurden, wobei 10 Sonden pro Variable verwendet und fehlende Werte nicht speziell probiert werden, mit einem festen Zufalls-Seed für Reproduzierbarkeit.

FAQ

Was ist die Aktion generateShadowFeatures?

Was ist der Zweck der Aktion generateShadowFeatures im Data Science Pilot Action Set?

Was ist der Parameter 'casOut' und welche Unterparameter gibt es?

Was ist der Parameter 'copyVars'?

Was ist der Parameter 'distinctCountLimit'?

Was ist der Parameter 'ecdfTolerance'?

Was ist der Parameter 'freq'?

Was ist der Parameter 'generateLevels'?

Was ist der Parameter 'inputs'?

Was ist der Parameter 'misraGries'?

Was ist der Parameter 'nominals'?

Was ist der Parameter 'nProbes'?

Was ist der Parameter 'probeMissing'?

Was ist der Parameter 'rareThreshold'?

Was ist der Parameter 'rareThresholdPercent'?

Was ist der Parameter 'sample' und welche Unterparameter gibt es?

Was ist der Parameter 'saveState' und welche Unterparameter gibt es?

Was ist der Parameter 'seed'?

Was ist der Parameter 'table' und welche Unterparameter gibt es?

Actions associées

dataSciencePilot

analyzeMissingPatterns

Realiza un análisis de los patrones de valores perdidos en un conjunto de dat...

dataSciencePilot

exploreCorrelation

La acción exploreCorrelation explora las correlaciones lineales y no lineales...

dataSciencePilot

exploreData

La acción exploreData realiza una exploración exhaustiva de los datos, incluy...

dataSciencePilot

featureMachine

Motor automatizado de transformación y generación de características. La acci...

Tabla de contenidos

Descripción

Daten erstellen

Ejemplos

Generieren von Schattenmerkmalen mit Standardparametern

Generieren von Schattenmerkmalen mit benutzerdefinierten Parametern

FAQ

Actions associées

analyzeMissingPatterns

exploreCorrelation

exploreData

featureMachine