highCardinality - WeAreCAS

Q: Was ist die highCardinality Aktion?

Die highCardinality Aktion führt eine randomisierte Kardinalitätsschätzung durch.

Q: Was sind die Einstellungen für die Ausgabetabelle bei der highCardinality Aktion?

Der Parameter "casOutHighCardinalityDetails" (Alias: "casout") gibt die Einstellungen für eine Ausgabetabelle an. Weitere Informationen finden Sie im gemeinsamen "casouttable" Parameter.

Q: Was ist der Zweck des Parameters "freq" in der highCardinality Aktion?

Der Parameter "freq" (Alias: "frequency") gibt die Häufigkeitsvariable an.

Q: Was bewirkt der Parameter "includeMissingGroup" in der highCardinality Aktion?

Wenn "includeMissingGroup" auf TRUE gesetzt ist, sind fehlende Werte als Gruppen-Schlüssel zulässig. Der Standardwert ist FALSE.

Q: Welche Variablen werden bei der highCardinality Aktion für die Analyse verwendet?

Der Parameter "inputs" (Alias: "vars") gibt die Variablen an, die für die Analyse verwendet werden sollen. Sie können eine Untermenge der Variablen aus der Eingabetabelle angeben. Weitere Informationen finden Sie im gemeinsamen "casinvardesc" Parameter.

Q: Was ist der Zweck des Parameters "nRegisterBits" in der highCardinality Aktion?

Der Parameter "nRegisterBits" gibt den Exponenten an, der die Anzahl der Register bestimmt, die vom HyperLogLog++ Kardinalitätsschätzer verwendet werden. Der Standardwert ist 10, der Bereich ist 5–16.

Q: Welche Optionen gibt es für Ergebnistabellen in der highCardinality Aktion?

Der Parameter "outputTableOptions" (Alias: "tblOpts") gibt Optionen für Ergebnistabellen an. Sie können festlegen, welche Ergebnistabellen der Server zurückgibt und wie Gruppen-Ergebnisse behandelt werden. Spezifische Optionen umfassen 'forceTableReturn' (Standard: FALSE, gibt Ergebnistabellen an den Client zurück, auch wenn die Ausgabe als Ausgabetabelle gespeichert wird) und 'tableNames' (Alias: 'outputTables', gibt die Namen der zu generierenden Ergebnistabellen an; standardmäßig werden alle Ergebnistabellen zurückgegeben).

Q: Was ist der Zweck des Parameters "table" in der highCardinality Aktion?

Der Parameter "table" gibt den Tabellennamen, die Caslib und andere allgemeine Parameter an. Dies ist ein erforderlicher Parameter. Weitere Informationen finden Sie im gemeinsamen "castable" Parameter.

Q: Was ist der Zweck des Parameters "weight" in der highCardinality Aktion?

Der Parameter "weight" gibt die Gewichtungsvariable an.

Inhaltsverzeichnis

Beschreibung

Die Aktion 'dataPreprocess.highCardinality' führt eine randomisierte Kardinalitätsschätzung durch. Diese Aktion hilft bei der Datenvorverarbeitung und Transformation, insbesondere bei der Bestimmung der Anzahl einzigartiger Werte (Kardinalität) für Variablen mit hoher Kardinalität. Dies ist nützlich für die Analyse und Vorbereitung von Daten für Machine-Learning-Modelle, bei denen die Kardinalität von Merkmalen die Modellleistung beeinflussen kann.

dataPreprocess.highCardinality <result=results> <status=rc> / <casOutHighCardinalityDetails={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={ "string-1" <, "string-2", ...> } }>, freq="variable-name", includeMissingGroup=TRUE | FALSE, inputs={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, nRegisterBits=integer, outputTableOptions={ forceTableReturn=TRUE | FALSE, tableNames={ "string-1" <, "string-2", ...> } }, table={ caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, computedVarsProgram="string", dataSourceOptions={ key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...> }, groupBy={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, groupByMode="NOSORT" | "REDISTRIBUTE", importOptions={ fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters }, name="table-name"*, orderBy={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, singlePass=TRUE | FALSE, vars={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, where="where-expression", whereTable={ casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={ fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters }, name="table-name"*, vars={{ format="string", formattedLength=integer, label="string", name="variable-name"*, nfd=integer, nfl=integer } <, {...}>}, where="where-expression" } }, weight="variable-name";

Einstellungen

Parameter	Beschreibung
casOutHighCardinalityDetails	Gibt die Einstellungen für eine Ausgabetabelle an. Für weitere Informationen zum Angeben des Parameters casOutHighCardinalityDetails siehe den gemeinsamen Parameter casouttable. Alias: casout.
caslib	Der Name der Caslib, die die Ausgabetabelle enthält.
compress	Gibt an, ob die Tabelle komprimiert werden soll. Werte: TRUE \| FALSE.
indexVars	Gibt eine Liste von Variablen an, die indiziert werden sollen.
label	Ein Beschriftungstext für die Ausgabetabelle.
lifetime	Die Lebensdauer der Ausgabetabelle in Sekunden.
maxMemSize	Die maximale Speichergröße für die Tabelle in Bytes.
memoryFormat	Gibt das Speicherformat für die Ausgabetabelle an. Werte: 'DVR' \| 'INHERIT' \| 'STANDARD'.
name	Der Name der Ausgabetabelle.
promote	Gibt an, ob die Ausgabetabelle nach ihrer Erstellung beworben werden soll. Werte: TRUE \| FALSE.
replace	Gibt an, ob eine vorhandene Ausgabetabelle ersetzt werden soll. Werte: TRUE \| FALSE.
replication	Die Anzahl der Replikate für die Ausgabetabelle.
tableRedistUpPolicy	Gibt die Richtlinie für die Umverteilung der Tabelle an. Werte: 'DEFER' \| 'NOREDIST' \| 'REBALANCE'.
threadBlockSize	Die Blockgröße für Threads.
timeStamp	Ein Zeitstempel für die Ausgabetabelle.
where	Ein WHERE-Ausdruck zur Filterung der Ausgabetabelle.
freq	Gibt die Häufigkeitsvariable an. Alias: frequency.
includeMissingGroup	Wenn auf 'True' gesetzt, sind fehlende Werte als Gruppierungsschlüssel zulässig. Standard: FALSE.
inputs	Gibt die für die Analyse zu verwendenden Variablen an. Es kann eine Teilmenge der Variablen aus der Eingabetabelle angegeben werden. Alias: vars.
format	Das Format der Variable.
formattedLength	Die formatierte Länge der Variable.
label	Die Beschriftung der Variable.
name	Der Name der Variable. (Erforderlich)
nfd	Die Anzahl der Nachkommastellen für die Variable.
nfl	Die Länge der Variable.
nRegisterBits	Gibt den Exponenten an, der die Anzahl der Register bestimmt, die vom HyperLogLog++ Kardinalitätsschätzer verwendet werden. Standard: 10. Bereich: 5–16.
outputTableOptions	Gibt Optionen für Ergebnistabellen an. Sie können angeben, welche Ergebnistabellen der Server zurückgibt und wie Gruppierungsergebnisse behandelt werden. Alias: tblOpts.
forceTableReturn	Wenn auf 'True' gesetzt, werden Ergebnistabellen an den Client zurückgegeben, auch wenn die Ausgabe als Ausgabetabelle gespeichert wird. Standard: FALSE.
tableNames	Gibt die Namen der zu generierenden Ergebnistabellen an. Standardmäßig werden alle Ergebnistabellen zurückgegeben. Alias: outputTables.
table	Gibt den Tabellennamen, die Caslib und andere allgemeine Parameter an. (Erforderlich)
caslib	Der Name der Caslib, die die Tabelle enthält.
computedOnDemand	Gibt an, ob die berechneten Variablen bei Bedarf berechnet werden sollen. Werte: TRUE \| FALSE.
computedVars	Gibt eine Liste von berechneten Variablen an.
computedVarsProgram	Das Programm für die berechneten Variablen.
dataSourceOptions	Gibt Optionen für die Datenquelle an.
groupBy	Gibt eine Liste von Variablen an, nach denen gruppiert werden soll.
groupByMode	Gibt den Gruppierungsmodus an. Werte: 'NOSORT' \| 'REDISTRIBUTE'.
importOptions	Gibt Importoptionen für die Tabelle an.
name	Der Name der Tabelle. (Erforderlich)
orderBy	Gibt eine Liste von Variablen an, nach denen sortiert werden soll.
singlePass	Gibt an, ob die Daten in einem einzigen Durchlauf verarbeitet werden sollen. Werte: TRUE \| FALSE.
vars	Gibt eine Liste von Variablen an.
where	Ein WHERE-Ausdruck zur Filterung der Tabelle.
whereTable	Gibt eine Tabelle an, die für den WHERE-Ausdruck verwendet werden soll.
weight	Gibt die Gewichtungsvariable an.

Beispiele

FAQ

Was ist die highCardinality Aktion?

Was sind die Einstellungen für die Ausgabetabelle bei der highCardinality Aktion?

Was ist der Zweck des Parameters "freq" in der highCardinality Aktion?

Was bewirkt der Parameter "includeMissingGroup" in der highCardinality Aktion?

Welche Variablen werden bei der highCardinality Aktion für die Analyse verwendet?

Was ist der Zweck des Parameters "nRegisterBits" in der highCardinality Aktion?

Welche Optionen gibt es für Ergebnistabellen in der highCardinality Aktion?

Was ist der Zweck des Parameters "table" in der highCardinality Aktion?

Was ist der Zweck des Parameters "weight" in der highCardinality Aktion?

Actions associées

dataPreprocess

binning

Führt eine unüberwachte Variablendiskretisierung durch. Diese Aktion ist nütz...

dataPreprocess

catTrans

Gruppiert und kodiert kategoriale Variablen unter Verwendung von unbeaufsicht...

datapreprocess

histogram

Erzeugt Histogramm-Bins und einfache bin-basierte Statistiken für numerische ...

dataPreprocess

impute

Führt die Imputation von Datenmatrizen (Variablen) durch.