L'action `highCardinality` de l'ensemble d'actions `dataPreprocess` est conçue pour l'estimation randomisée de la cardinalité. Cette action calcule une estimation de la cardinalité des variables d'entrée en utilisant l'algorithme HyperLogLog++. Elle est particulièrement utile pour traiter des jeux de données volumineux avec des colonnes qui pourraient avoir un nombre très élevé de valeurs uniques, ce qui est courant dans les analyses de Big Data. L'estimation de la cardinalité est une étape essentielle dans le prétraitement des données pour comprendre la diversité des données et optimiser les opérations de regroupement ou de jointure ultérieures.
Cette action peut être configurée pour inclure ou exclure les valeurs manquantes dans les clés de regroupement et permet de spécifier la variable de fréquence et la variable de poids. L'estimation de la cardinalité est calculée sur le serveur CAS, ce qui la rend efficace pour les données en mémoire.
| Paramètre | Description |
|---|---|
| casOutHighCardinalityDetails | Spécifie les paramètres pour une table de sortie. Pour plus d'informations sur la spécification du paramètre casOutHighCardinalityDetails, consultez le paramètre commun casouttable. Alias : casout. |
| freq | Spécifie la variable de fréquence. Alias : frequency. |
| includeMissingGroup | Lorsque défini sur True, les valeurs manquantes sont autorisées comme clés de regroupement. Valeur par défaut : FALSE. |
| inputs | Spécifie les variables à utiliser pour l'analyse. Vous pouvez spécifier un sous-ensemble des variables de la table d'entrée. Pour plus d'informations sur la spécification du paramètre inputs, consultez le paramètre commun casinvardesc. Alias : vars. |
| nRegisterBits | Spécifie l'exposant qui détermine le nombre de registres à utiliser par l'estimateur de cardinalité HyperLogLog++. Valeur par défaut : 10. Plage : 5–16. |
| outputTableOptions | Spécifie les options pour les tables de résultats. Vous pouvez spécifier quelles tables de résultats le serveur renvoie et comment les résultats de regroupement sont gérés. Alias : tblOpts. - **forceTableReturn**: Lorsque défini sur True, les tables de résultats sont renvoyées au client même si la sortie est également enregistrée comme table de sortie. Valeur par défaut : FALSE. - **tableNames**: Spécifie les noms des tables de résultats à générer. Par défaut, toutes les tables de résultats sont renvoyées. Alias : outputTables. |
| table | Spécifie le nom de la table, la caslib et d'autres paramètres communs. Pour plus d'informations sur la spécification du paramètre table, consultez le paramètre commun castable. |
| weight | Spécifie la variable de poids. |