highCardinality - WeAreCAS

Description

L'action `highCardinality` de l'ensemble d'actions `dataPreprocess` est conçue pour l'estimation randomisée de la cardinalité. Cette action calcule une estimation de la cardinalité des variables d'entrée en utilisant l'algorithme HyperLogLog++. Elle est particulièrement utile pour traiter des jeux de données volumineux avec des colonnes qui pourraient avoir un nombre très élevé de valeurs uniques, ce qui est courant dans les analyses de Big Data. L'estimation de la cardinalité est une étape essentielle dans le prétraitement des données pour comprendre la diversité des données et optimiser les opérations de regroupement ou de jointure ultérieures.

Cette action peut être configurée pour inclure ou exclure les valeurs manquantes dans les clés de regroupement et permet de spécifier la variable de fréquence et la variable de poids. L'estimation de la cardinalité est calculée sur le serveur CAS, ce qui la rend efficace pour les données en mémoire.

dataPreprocess.highCardinality <result=results> <status=rc> / <casOutHighCardinalityDetails={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }>, freq="variable-name", includeMissingGroup=TRUE | FALSE, inputs={{format="string", formattedLength=integer, label="string", name="variable-name" <*, nfd=integer, nfl=integer>}, {...}}, nRegisterBits=integer, outputTableOptions={ forceTableReturn=TRUE | FALSE, tableNames={"string-1" <, "string-2", ...>} }, table={ caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{format="string", formattedLength=integer, label="string", name="variable-name" <*, nfd=integer, nfl=integer>}, {...}}, computedVarsProgram="string", dataSourceOptions={<key-1>=<any-list-or-data-type-1> <, <key-2>=<any-list-or-data-type-2>, ...>}, groupBy={{format="string", formattedLength=integer, label="string", name="variable-name" <*, nfd=integer, nfl=integer>}, {...}}, groupByMode="NOSORT" | "REDISTRIBUTE", importOptions={<fileType>="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", <fileType-specific-parameters>}, name="table-name" <*, orderBy={{format="string", formattedLength=integer, label="string", name="variable-name" <*, nfd=integer, nfl=integer>}, {...}}, singlePass=TRUE | FALSE, vars={{format="string", formattedLength=integer, label="string", name="variable-name" <*, nfd=integer, nfl=integer>}, {...}}, where="where-expression", whereTable={ casLib="string", dataSourceOptions={<adls_noreq-parameters> | <bigquery-parameters> | <cas_noreq-parameters> | <clouddex-parameters> | <db2-parameters> | <dnfs-parameters> | <esp-parameters> | <fedsvr-parameters> | <gcs_noreq-parameters> | <hadoop-parameters> | <hana-parameters> | <impala-parameters> | <informix-parameters> | <jdbc-parameters> | <mongodb-parameters> | <mysql-parameters> | <odbc-parameters> | <oracle-parameters> | <path-parameters> | <postgres-parameters> | <redshift-parameters> | <s3-parameters> | <sapiq-parameters> | <sforce-parameters> | <singlestore_standard-parameters> | <snowflake-parameters> | <spark-parameters> | <spde-parameters> | <sqlserver-parameters> | <ss_noreq-parameters> | <teradata-parameters> | <vertica-parameters> | <yellowbrick-parameters>}, importOptions={<fileType>="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", <fileType-specific-parameters>}, name="table-name" <*, vars={{format="string", formattedLength=integer, label="string", name="variable-name" <*, nfd=integer, nfl=integer>}, {...}}, where="where-expression" } }>, weight="variable-name" );

Paramètres

Paramètre	Description
casOutHighCardinalityDetails	Spécifie les paramètres pour une table de sortie. Pour plus d'informations sur la spécification du paramètre casOutHighCardinalityDetails, consultez le paramètre commun casouttable. Alias : casout.
freq	Spécifie la variable de fréquence. Alias : frequency.
includeMissingGroup	Lorsque défini sur True, les valeurs manquantes sont autorisées comme clés de regroupement. Valeur par défaut : FALSE.
inputs	Spécifie les variables à utiliser pour l'analyse. Vous pouvez spécifier un sous-ensemble des variables de la table d'entrée. Pour plus d'informations sur la spécification du paramètre inputs, consultez le paramètre commun casinvardesc. Alias : vars.
nRegisterBits	Spécifie l'exposant qui détermine le nombre de registres à utiliser par l'estimateur de cardinalité HyperLogLog++. Valeur par défaut : 10. Plage : 5–16.
outputTableOptions	Spécifie les options pour les tables de résultats. Vous pouvez spécifier quelles tables de résultats le serveur renvoie et comment les résultats de regroupement sont gérés. Alias : tblOpts. - forceTableReturn: Lorsque défini sur True, les tables de résultats sont renvoyées au client même si la sortie est également enregistrée comme table de sortie. Valeur par défaut : FALSE. - tableNames: Spécifie les noms des tables de résultats à générer. Par défaut, toutes les tables de résultats sont renvoyées. Alias : outputTables.
table	Spécifie le nom de la table, la caslib et d'autres paramètres communs. Pour plus d'informations sur la spécification du paramètre table, consultez le paramètre commun castable.
weight	Spécifie la variable de poids.

Exemples

Actions associées

dataPreprocess

catTrans

L'action `catTrans` du set `dataPreprocess` est un outil fondamental en prépa...

dataPreprocess

binning

L'action `dataPreprocess.binning` est un outil fondamental en préparation de ...

dataPreprocess

impute

Effectue l'imputation de matrice de données (variable).

Sommaire

Description

Exemples

Actions associées

catTrans

binning

impute