dataPreprocess

highCardinality

Beschreibung

Die Aktion 'dataPreprocess.highCardinality' führt eine randomisierte Kardinalitätsschätzung durch. Diese Aktion hilft bei der Datenvorverarbeitung und Transformation, insbesondere bei der Bestimmung der Anzahl einzigartiger Werte (Kardinalität) für Variablen mit hoher Kardinalität. Dies ist nützlich für die Analyse und Vorbereitung von Daten für Machine-Learning-Modelle, bei denen die Kardinalität von Merkmalen die Modellleistung beeinflussen kann.

dataPreprocess.highCardinality <result=results> <status=rc> / <casOutHighCardinalityDetails={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={ "string-1" <, "string-2", ...> } }>, freq="variable-name", includeMissingGroup=TRUE | FALSE, inputs={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, nRegisterBits=integer, outputTableOptions={ forceTableReturn=TRUE | FALSE, tableNames={ "string-1" <, "string-2", ...> } }, table={ caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, computedVarsProgram="string", dataSourceOptions={ key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...> }, groupBy={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, groupByMode="NOSORT" | "REDISTRIBUTE", importOptions={ fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters }, name="table-name"*, orderBy={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, singlePass=TRUE | FALSE, vars={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, where="where-expression", whereTable={ casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={ fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters }, name="table-name"*, vars={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, where="where-expression" } }, weight="variable-name";
Einstellungen
ParameterBeschreibung
casOutHighCardinalityDetails Gibt die Einstellungen für eine Ausgabetabelle an. Für weitere Informationen zum Angeben des Parameters casOutHighCardinalityDetails siehe den gemeinsamen Parameter casouttable. Alias: casout.
caslib Der Name der Caslib, die die Ausgabetabelle enthält.
compress Gibt an, ob die Tabelle komprimiert werden soll. Werte: TRUE | FALSE.
indexVars Gibt eine Liste von Variablen an, die indiziert werden sollen.
label Ein Beschriftungstext für die Ausgabetabelle.
lifetime Die Lebensdauer der Ausgabetabelle in Sekunden.
maxMemSize Die maximale Speichergröße für die Tabelle in Bytes.
memoryFormat Gibt das Speicherformat für die Ausgabetabelle an. Werte: 'DVR' | 'INHERIT' | 'STANDARD'.
name Der Name der Ausgabetabelle.
promote Gibt an, ob die Ausgabetabelle nach ihrer Erstellung beworben werden soll. Werte: TRUE | FALSE.
replace Gibt an, ob eine vorhandene Ausgabetabelle ersetzt werden soll. Werte: TRUE | FALSE.
replication Die Anzahl der Replikate für die Ausgabetabelle.
tableRedistUpPolicy Gibt die Richtlinie für die Umverteilung der Tabelle an. Werte: 'DEFER' | 'NOREDIST' | 'REBALANCE'.
threadBlockSize Die Blockgröße für Threads.
timeStamp Ein Zeitstempel für die Ausgabetabelle.
where Ein WHERE-Ausdruck zur Filterung der Ausgabetabelle.
freq Gibt die Häufigkeitsvariable an. Alias: frequency.
includeMissingGroup Wenn auf 'True' gesetzt, sind fehlende Werte als Gruppierungsschlüssel zulässig. Standard: FALSE.
inputs Gibt die für die Analyse zu verwendenden Variablen an. Es kann eine Teilmenge der Variablen aus der Eingabetabelle angegeben werden. Alias: vars.
format Das Format der Variable.
formattedLength Die formatierte Länge der Variable.
label Die Beschriftung der Variable.
name Der Name der Variable. (Erforderlich)
nfd Die Anzahl der Nachkommastellen für die Variable.
nfl Die Länge der Variable.
nRegisterBits Gibt den Exponenten an, der die Anzahl der Register bestimmt, die vom HyperLogLog++ Kardinalitätsschätzer verwendet werden. Standard: 10. Bereich: 5–16.
outputTableOptions Gibt Optionen für Ergebnistabellen an. Sie können angeben, welche Ergebnistabellen der Server zurückgibt und wie Gruppierungsergebnisse behandelt werden. Alias: tblOpts.
forceTableReturn Wenn auf 'True' gesetzt, werden Ergebnistabellen an den Client zurückgegeben, auch wenn die Ausgabe als Ausgabetabelle gespeichert wird. Standard: FALSE.
tableNames Gibt die Namen der zu generierenden Ergebnistabellen an. Standardmäßig werden alle Ergebnistabellen zurückgegeben. Alias: outputTables.
table Gibt den Tabellennamen, die Caslib und andere allgemeine Parameter an. (Erforderlich)
caslib Der Name der Caslib, die die Tabelle enthält.
computedOnDemand Gibt an, ob die berechneten Variablen bei Bedarf berechnet werden sollen. Werte: TRUE | FALSE.
computedVars Gibt eine Liste von berechneten Variablen an.
computedVarsProgram Das Programm für die berechneten Variablen.
dataSourceOptions Gibt Optionen für die Datenquelle an.
groupBy Gibt eine Liste von Variablen an, nach denen gruppiert werden soll.
groupByMode Gibt den Gruppierungsmodus an. Werte: 'NOSORT' | 'REDISTRIBUTE'.
importOptions Gibt Importoptionen für die Tabelle an.
name Der Name der Tabelle. (Erforderlich)
orderBy Gibt eine Liste von Variablen an, nach denen sortiert werden soll.
singlePass Gibt an, ob die Daten in einem einzigen Durchlauf verarbeitet werden sollen. Werte: TRUE | FALSE.
vars Gibt eine Liste von Variablen an.
where Ein WHERE-Ausdruck zur Filterung der Tabelle.
whereTable Gibt eine Tabelle an, die für den WHERE-Ausdruck verwendet werden soll.
weight Gibt die Gewichtungsvariable an.

Beispiele

FAQ

Was ist die highCardinality Aktion?
Was sind die Einstellungen für die Ausgabetabelle bei der highCardinality Aktion?
Was ist der Zweck des Parameters "freq" in der highCardinality Aktion?
Was bewirkt der Parameter "includeMissingGroup" in der highCardinality Aktion?
Welche Variablen werden bei der highCardinality Aktion für die Analyse verwendet?
Was ist der Zweck des Parameters "nRegisterBits" in der highCardinality Aktion?
Welche Optionen gibt es für Ergebnistabellen in der highCardinality Aktion?
Was ist der Zweck des Parameters "table" in der highCardinality Aktion?
Was ist der Zweck des Parameters "weight" in der highCardinality Aktion?