dataPreprocess

highCardinality

Description

L'action `highCardinality` de l'ensemble d'actions `dataPreprocess` est conçue pour l'estimation randomisée de la cardinalité. Cette action calcule une estimation de la cardinalité des variables d'entrée en utilisant l'algorithme HyperLogLog++. Elle est particulièrement utile pour traiter des jeux de données volumineux avec des colonnes qui pourraient avoir un nombre très élevé de valeurs uniques, ce qui est courant dans les analyses de Big Data. L'estimation de la cardinalité est une étape essentielle dans le prétraitement des données pour comprendre la diversité des données et optimiser les opérations de regroupement ou de jointure ultérieures.

Cette action peut être configurée pour inclure ou exclure les valeurs manquantes dans les clés de regroupement et permet de spécifier la variable de fréquence et la variable de poids. L'estimation de la cardinalité est calculée sur le serveur CAS, ce qui la rend efficace pour les données en mémoire.

dataPreprocess.highCardinality <result=results> <status=rc> / <casOutHighCardinalityDetails={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }>, freq="variable-name", includeMissingGroup=TRUE | FALSE, inputs={{format="string", formattedLength=integer, label="string", name="variable-name" <*, nfd=integer, nfl=integer>}, {...}}, nRegisterBits=integer, outputTableOptions={ forceTableReturn=TRUE | FALSE, tableNames={"string-1" <, "string-2", ...>} }, table={ caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{format="string", formattedLength=integer, label="string", name="variable-name" <*, nfd=integer, nfl=integer>}, {...}}, computedVarsProgram="string", dataSourceOptions={<key-1>=<any-list-or-data-type-1> <, <key-2>=<any-list-or-data-type-2>, ...>}, groupBy={{format="string", formattedLength=integer, label="string", name="variable-name" <*, nfd=integer, nfl=integer>}, {...}}, groupByMode="NOSORT" | "REDISTRIBUTE", importOptions={<fileType>="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", <fileType-specific-parameters>}, name="table-name" <*, orderBy={{format="string", formattedLength=integer, label="string", name="variable-name" <*, nfd=integer, nfl=integer>}, {...}}, singlePass=TRUE | FALSE, vars={{format="string", formattedLength=integer, label="string", name="variable-name" <*, nfd=integer, nfl=integer>}, {...}}, where="where-expression", whereTable={ casLib="string", dataSourceOptions={<adls_noreq-parameters> | <bigquery-parameters> | <cas_noreq-parameters> | <clouddex-parameters> | <db2-parameters> | <dnfs-parameters> | <esp-parameters> | <fedsvr-parameters> | <gcs_noreq-parameters> | <hadoop-parameters> | <hana-parameters> | <impala-parameters> | <informix-parameters> | <jdbc-parameters> | <mongodb-parameters> | <mysql-parameters> | <odbc-parameters> | <oracle-parameters> | <path-parameters> | <postgres-parameters> | <redshift-parameters> | <s3-parameters> | <sapiq-parameters> | <sforce-parameters> | <singlestore_standard-parameters> | <snowflake-parameters> | <spark-parameters> | <spde-parameters> | <sqlserver-parameters> | <ss_noreq-parameters> | <teradata-parameters> | <vertica-parameters> | <yellowbrick-parameters>}, importOptions={<fileType>="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", <fileType-specific-parameters>}, name="table-name" <*, vars={{format="string", formattedLength=integer, label="string", name="variable-name" <*, nfd=integer, nfl=integer>}, {...}}, where="where-expression" } }>, weight="variable-name" );
Paramètres
ParamètreDescription
casOutHighCardinalityDetailsSpécifie les paramètres pour une table de sortie. Pour plus d'informations sur la spécification du paramètre casOutHighCardinalityDetails, consultez le paramètre commun casouttable. Alias : casout.
freqSpécifie la variable de fréquence. Alias : frequency.
includeMissingGroupLorsque défini sur True, les valeurs manquantes sont autorisées comme clés de regroupement. Valeur par défaut : FALSE.
inputsSpécifie les variables à utiliser pour l'analyse. Vous pouvez spécifier un sous-ensemble des variables de la table d'entrée. Pour plus d'informations sur la spécification du paramètre inputs, consultez le paramètre commun casinvardesc. Alias : vars.
nRegisterBitsSpécifie l'exposant qui détermine le nombre de registres à utiliser par l'estimateur de cardinalité HyperLogLog++. Valeur par défaut : 10. Plage : 5–16.
outputTableOptionsSpécifie les options pour les tables de résultats. Vous pouvez spécifier quelles tables de résultats le serveur renvoie et comment les résultats de regroupement sont gérés. Alias : tblOpts. - **forceTableReturn**: Lorsque défini sur True, les tables de résultats sont renvoyées au client même si la sortie est également enregistrée comme table de sortie. Valeur par défaut : FALSE. - **tableNames**: Spécifie les noms des tables de résultats à générer. Par défaut, toutes les tables de résultats sont renvoyées. Alias : outputTables.
tableSpécifie le nom de la table, la caslib et d'autres paramètres communs. Pour plus d'informations sur la spécification du paramètre table, consultez le paramètre commun castable.
weightSpécifie la variable de poids.

Exemples