dataPreprocess

highCardinality

Beschreibung

Die Aktion 'dataPreprocess.highCardinality' führt eine randomisierte Kardinalitätsschätzung durch. Diese Aktion hilft bei der Datenvorverarbeitung und Transformation, insbesondere bei der Bestimmung der Anzahl einzigartiger Werte (Kardinalität) für Variablen mit hoher Kardinalität. Dies ist nützlich für die Analyse und Vorbereitung von Daten für Machine-Learning-Modelle, bei denen die Kardinalität von Merkmalen die Modellleistung beeinflussen kann.

dataPreprocess.highCardinality <result=results> <status=rc> / <casOutHighCardinalityDetails={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={ "string-1" <, "string-2", ...> } }>, freq="variable-name", includeMissingGroup=TRUE | FALSE, inputs={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, nRegisterBits=integer, outputTableOptions={ forceTableReturn=TRUE | FALSE, tableNames={ "string-1" <, "string-2", ...> } }, table={ caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, computedVarsProgram="string", dataSourceOptions={ key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...> }, groupBy={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, groupByMode="NOSORT" | "REDISTRIBUTE", importOptions={ fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters }, name="table-name"*, orderBy={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, singlePass=TRUE | FALSE, vars={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, where="where-expression", whereTable={ casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={ fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters }, name="table-name"*, vars={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, where="where-expression" } }, weight="variable-name";
Einstellungen
ParameterBeschreibung
casOutHighCardinalityDetailsGibt die Einstellungen für eine Ausgabetabelle an. Für weitere Informationen zum Angeben des Parameters casOutHighCardinalityDetails siehe den gemeinsamen Parameter casouttable. Alias: casout.
caslibDer Name der Caslib, die die Ausgabetabelle enthält.
compressGibt an, ob die Tabelle komprimiert werden soll. Werte: TRUE | FALSE.
indexVarsGibt eine Liste von Variablen an, die indiziert werden sollen.
labelEin Beschriftungstext für die Ausgabetabelle.
lifetimeDie Lebensdauer der Ausgabetabelle in Sekunden.
maxMemSizeDie maximale Speichergröße für die Tabelle in Bytes.
memoryFormatGibt das Speicherformat für die Ausgabetabelle an. Werte: 'DVR' | 'INHERIT' | 'STANDARD'.
nameDer Name der Ausgabetabelle.
promoteGibt an, ob die Ausgabetabelle nach ihrer Erstellung beworben werden soll. Werte: TRUE | FALSE.
replaceGibt an, ob eine vorhandene Ausgabetabelle ersetzt werden soll. Werte: TRUE | FALSE.
replicationDie Anzahl der Replikate für die Ausgabetabelle.
tableRedistUpPolicyGibt die Richtlinie für die Umverteilung der Tabelle an. Werte: 'DEFER' | 'NOREDIST' | 'REBALANCE'.
threadBlockSizeDie Blockgröße für Threads.
timeStampEin Zeitstempel für die Ausgabetabelle.
whereEin WHERE-Ausdruck zur Filterung der Ausgabetabelle.
freqGibt die Häufigkeitsvariable an. Alias: frequency.
includeMissingGroupWenn auf 'True' gesetzt, sind fehlende Werte als Gruppierungsschlüssel zulässig. Standard: FALSE.
inputsGibt die für die Analyse zu verwendenden Variablen an. Es kann eine Teilmenge der Variablen aus der Eingabetabelle angegeben werden. Alias: vars.
formatDas Format der Variable.
formattedLengthDie formatierte Länge der Variable.
labelDie Beschriftung der Variable.
nameDer Name der Variable. (Erforderlich)
nfdDie Anzahl der Nachkommastellen für die Variable.
nflDie Länge der Variable.
nRegisterBitsGibt den Exponenten an, der die Anzahl der Register bestimmt, die vom HyperLogLog++ Kardinalitätsschätzer verwendet werden. Standard: 10. Bereich: 5–16.
outputTableOptionsGibt Optionen für Ergebnistabellen an. Sie können angeben, welche Ergebnistabellen der Server zurückgibt und wie Gruppierungsergebnisse behandelt werden. Alias: tblOpts.
forceTableReturnWenn auf 'True' gesetzt, werden Ergebnistabellen an den Client zurückgegeben, auch wenn die Ausgabe als Ausgabetabelle gespeichert wird. Standard: FALSE.
tableNamesGibt die Namen der zu generierenden Ergebnistabellen an. Standardmäßig werden alle Ergebnistabellen zurückgegeben. Alias: outputTables.
tableGibt den Tabellennamen, die Caslib und andere allgemeine Parameter an. (Erforderlich)
caslibDer Name der Caslib, die die Tabelle enthält.
computedOnDemandGibt an, ob die berechneten Variablen bei Bedarf berechnet werden sollen. Werte: TRUE | FALSE.
computedVarsGibt eine Liste von berechneten Variablen an.
computedVarsProgramDas Programm für die berechneten Variablen.
dataSourceOptionsGibt Optionen für die Datenquelle an.
groupByGibt eine Liste von Variablen an, nach denen gruppiert werden soll.
groupByModeGibt den Gruppierungsmodus an. Werte: 'NOSORT' | 'REDISTRIBUTE'.
importOptionsGibt Importoptionen für die Tabelle an.
nameDer Name der Tabelle. (Erforderlich)
orderByGibt eine Liste von Variablen an, nach denen sortiert werden soll.
singlePassGibt an, ob die Daten in einem einzigen Durchlauf verarbeitet werden sollen. Werte: TRUE | FALSE.
varsGibt eine Liste von Variablen an.
whereEin WHERE-Ausdruck zur Filterung der Tabelle.
whereTableGibt eine Tabelle an, die für den WHERE-Ausdruck verwendet werden soll.
weightGibt die Gewichtungsvariable an.

Beispiele

FAQ

Was ist die highCardinality Aktion?
Was sind die Einstellungen für die Ausgabetabelle bei der highCardinality Aktion?
Was ist der Zweck des Parameters "freq" in der highCardinality Aktion?
Was bewirkt der Parameter "includeMissingGroup" in der highCardinality Aktion?
Welche Variablen werden bei der highCardinality Aktion für die Analyse verwendet?
Was ist der Zweck des Parameters "nRegisterBits" in der highCardinality Aktion?
Welche Optionen gibt es für Ergebnistabellen in der highCardinality Aktion?
Was ist der Zweck des Parameters "table" in der highCardinality Aktion?
Was ist der Zweck des Parameters "weight" in der highCardinality Aktion?