generateShadowFeatures

Q: Qu'est-ce que l'action generateShadowFeatures ?

L'action `generateShadowFeatures` génère des caractéristiques fantômes.

Q: Quels sont les tableaux d'entrée et de sortie pour l'action generateShadowFeatures ?

Paramètres pour la lecture des tableaux d'entrée : - `sample` (avec le sous-paramètre `rstore`) : spécifie les options d'échantillonnage des caractéristiques fantômes. - `table` : spécifie le nom de la table, la caslib et d'autres paramètres communs. Paramètres pour la création des tableaux de sortie : - `casOut` : spécifie la table CAS pour stocker les résultats de l'analyse. - `saveState` : spécifie la table CAS pour stocker le modèle de transformation et de génération des caractéristiques.

Q: Quels sont les paramètres principaux de l'action generateShadowFeatures ?

Voici quelques-uns des paramètres principaux de l'action `generateShadowFeatures` : - `casOut` : Ce paramètre spécifie la table CAS où seront stockés les résultats de l'analyse. Il peut inclure des sous-paramètres tels que `caslib` (nom de la caslib), `name` (nom de la table), `replace` (écraser si elle existe), `promote` (portée globale), `lifetime`, `indexVars` et `memoryFormat`. - `distinctCountLimit` : Ce paramètre spécifie la limite de comptage distinct pour les valeurs. Si cette limite est dépassée et que le paramètre `misraGries` est activé, l'algorithme d'esquisse de fréquence de Misra-Gries est utilisé pour estimer la distribution de fréquence. Sinon, l'opération de comptage distinct est annulée. (Valeur par défaut : 10000, Minimum : 256) - `inputs` (alias `vars`) : Ce paramètre spécifie les variables à utiliser pour l'analyse. Il est possible de spécifier un sous-ensemble des variables de la table d'entrée. Pour chaque variable, on peut définir des propriétés comme le `format`, `formattedLength`, `label`, `name` (obligatoire), `nfd` et `nfl`.

Sommaire

Description

Cette action génère des fonctionnalités "ombre" (shadow features). Elle fait partie de l'ensemble d'actions Data Science Pilot, qui fournit des actions pour automatiser les flux de travail de la science des données, y compris l'exploration, l'exécution et le classement automatiques des pipelines d'apprentissage automatique.

dataSciencePilot.generateShadowFeatures <result=results> <status=rc> /\n casOut={\n caslib="string",\n indexVars={"variable-name-1" <, "variable-name-2", ...>},\n lifetime=64-bit-integer,\n memoryFormat="DVR" | "INHERIT" | "STANDARD",\n name="table-name",\n promote=TRUE | FALSE,\n replace=TRUE | FALSE,\n tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE"},\n copyVars={"variable-name-1" <, "variable-name-2", ...>},\n distinctCountLimit=integer,\n ecdfTolerance=double,\n freq="variable-name",\n generateLevels=TRUE | FALSE,\n inputs={{format="string",\n formattedLength=integer,\n label="string",\n name="variable-name",\n nfd=integer,\n nfl=integer}},\n misraGries=TRUE | FALSE,\n nominals={"variable-name-1" <, "variable-name-2", ...>},\n nProbes=integer,\n probeMissing=TRUE | FALSE,\n rareThreshold=integer,\n rareThresholdPercent=double,\n sample={nRecords=64-bit-integer,\n rstore={caslib="string",\n dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>},\n name="table-name",\n whereTable={casLib="string",\n dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters},\n importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters},\n name="table-name",\n vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}},\n where="where-expression"}}},\n saveState={caslib="string",\n indexVars={"variable-name-1" <, "variable-name-2", ...>},\n lifetime=64-bit-integer,\n memoryFormat="DVR" | "INHERIT" | "STANDARD",\n name="table-name",\n promote=TRUE | FALSE,\n replace=TRUE | FALSE,\n tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE"},\n seed=integer,\n table={caslib="string",\n computedOnDemand=TRUE | FALSE,\n computedVars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}},\n computedVarsProgram="string",\n dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>},\n importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters},\n name="table-name",\n singlePass=TRUE | FALSE,\n vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}},\n where="where-expression",\n whereTable={casLib="string",\n dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters},\n importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters},\n name="table-name",\n vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}},\n where="where-expression"}}\n;

Paramètres

Paramètre	Description
casOut	Spécifie la table CAS pour stocker les résultats de l'analyse.
casOut.caslib	Spécifie le nom de la caslib pour la table de sortie.
casOut.indexVars	Spécifie la liste des variables pour lesquelles créer des index dans la table de sortie.
casOut.lifetime	Spécifie le nombre de secondes pendant lesquelles la table doit rester en mémoire après son dernier accès. La table est supprimée si elle n'est pas consultée pendant le nombre de secondes spécifié. La valeur par défaut est 0 et la valeur minimale est 0.
casOut.memoryFormat	Spécifie le format de mémoire pour la table de sortie. La valeur par défaut est INHERIT.
casOut.memoryFormat.DVR	Utilise le format de mémoire de réduction de valeurs dupliquées. Ce format de mémoire peut réduire la consommation de mémoire et la taille du fichier lorsque les données d'entrée contiennent des valeurs dupliquées.
casOut.memoryFormat.INHERIT	Utilise le format de mémoire par défaut défini pour le serveur. Par défaut, le serveur utilise le format de mémoire standard. Si un administrateur définit la variable d'environnement CAS_DEFAULT_MEMORY_FORMAT sur DVR, le format de mémoire DVR est alors défini comme valeur par défaut pour le serveur.
casOut.memoryFormat.STANDARD	Utilise le format de mémoire standard.
casOut.name	Spécifie le nom de la table de sortie.
casOut.promote	Lorsque la valeur est True, ajoute la table de sortie avec une portée globale. Cela permet à d'autres sessions d'accéder à la table, sous réserve des contrôles d'accès. La caslib cible doit également avoir une portée globale. La valeur par défaut est FALSE.
casOut.replace	Lorsque la valeur est True, écrase une table existante portant le même nom. La valeur par défaut est FALSE.
casOut.tableRedistUpPolicy	Spécifie la politique de redistribution de la table lorsque le nombre de pods de travail augmente sur un serveur CAS en cours d'exécution.
casOut.tableRedistUpPolicy.DEFER	Différer la sélection de la politique de redistribution à une entité de niveau supérieur.
casOut.tableRedistUpPolicy.NOREDIST	Ne pas redistribuer les données de la table lorsque le nombre de pods de travail change sur un serveur CAS en cours d'exécution.
casOut.tableRedistUpPolicy.REBALANCE	Rééquilibrer les données de la table lorsque le nombre de pods de travail change sur un serveur CAS en cours d'exécution.
copyVars	Spécifie les noms des variables à copier dans la table de sortie.
distinctCountLimit	Spécifie la limite de comptage distinct. Si la limite est dépassée et que le paramètre misraGries est défini sur True, l'algorithme d'esquisse de fréquence de Misra-Gries est utilisé pour estimer la distribution de fréquence. Sinon, l'opération de comptage distinct est annulée. La valeur par défaut est 10000 et la valeur minimale est 256.
ecdfTolerance	Spécifie la valeur de tolérance pour la fonction de distribution cumulative empirique. Cette valeur est utilisée par l'algorithme d'esquisse de quantile. La valeur par défaut est 0.001 et la plage est de 1E-06 à 0.1.
freq	Spécifie la variable de fréquence.
generateLevels	Spécifie que des niveaux, au lieu de valeurs brutes, doivent être générés. La valeur par défaut est FALSE.
inputs	Spécifie les variables à utiliser pour l'analyse. Vous pouvez spécifier un sous-ensemble des variables de la table d'entrée. Pour plus d'informations sur la spécification du paramètre inputs, consultez le paramètre commun casinvardesc (Annexe A : Paramètres communs).
inputs.format	Spécifie le format à appliquer à la variable.
inputs.formattedLength	Spécifie la longueur du champ de format plus la longueur de la précision du format.
inputs.label	Spécifie le libellé descriptif de la variable.
inputs.name	Spécifie le nom de la variable.
inputs.nfd	Spécifie la longueur de la précision du format.
inputs.nfl	Spécifie la longueur du champ de format.
misraGries	Lorsque la valeur est True, utilise l'algorithme de Misra-Gries pour l'estimation de la distribution de fréquence, si la limite de comptage distinct est dépassée. La valeur par défaut est TRUE.
nominals	Spécifie les variables nominales.
nProbes	Spécifie le nombre de fonctionnalités "ombre" à générer pour chaque variable. La valeur par défaut est 5 et la plage est de 1 à 20.
probeMissing	Lorsque la valeur est True, génère les valeurs manquantes au taux d'observations manquantes. La valeur par défaut est TRUE.
rareThreshold	Spécifie le seuil de fréquence rare. La valeur minimale (exclusive) est 0.
rareThresholdPercent	Spécifie le pourcentage du seuil de fréquence rare. Les niveaux dont les fréquences sont inférieures au seuil sont regroupés. La plage est de (0, 100).
sample	Spécifie les options d'échantillonnage des fonctionnalités "ombre".
sample.nRecords	Nombre d'observations à échantillonner à l'aide du modèle spécifié (astore). La valeur par défaut est 1000 et la valeur minimale est 1.
sample.rstore	Spécifie une table blob d'entrée où lire le modèle et l'état.
sample.rstore.caslib	Spécifie la caslib pour la table d'entrée que vous souhaitez utiliser avec l'action. Par défaut, la caslib active est utilisée. Spécifiez une valeur uniquement si vous devez accéder à une table à partir d'une autre caslib.
sample.rstore.dataSourceOptions	Spécifie les options de la source de données.
sample.rstore.name	Spécifie le nom de la table d'entrée.
sample.rstore.whereTable	Spécifie une table d'entrée qui contient des lignes à utiliser comme filtre WHERE. Si le paramètre vars n'est pas spécifié, tous les noms de variables communs à la table d'entrée et à la table de filtrage sont utilisés pour trouver les lignes correspondantes. Si le paramètre where pour la table d'entrée et ce paramètre sont spécifiés, cette table de filtrage est appliquée en premier.
sample.rstore.whereTable.casLib	Spécifie la caslib pour la table de filtre. Par défaut, la caslib active est utilisée.
sample.rstore.whereTable.dataSourceOptions	Spécifie les options de la source de données. Pour plus d'informations sur la spécification du paramètre dataSourceOptions, consultez le paramètre commun dataSourceOptions (Annexe A : Paramètres communs).
sample.rstore.whereTable.importOptions	Spécifie les paramètres pour la lecture d'une table à partir d'une source de données. Pour plus d'informations sur la spécification du paramètre importOptions, consultez le paramètre commun importOptions (Annexe A : Paramètres communs).
sample.rstore.whereTable.name	Spécifie le nom de la table de filtre.
sample.rstore.whereTable.vars	Spécifie les noms de variables à utiliser à partir de la table de filtre.
sample.rstore.whereTable.vars.format	Spécifie le format à appliquer à la variable.
sample.rstore.whereTable.vars.formattedLength	Spécifie la longueur du champ de format plus la longueur de la précision du format.
sample.rstore.whereTable.vars.label	Spécifie le libellé descriptif de la variable.
sample.rstore.whereTable.vars.name	Spécifie le nom de la variable.
sample.rstore.whereTable.vars.nfd	Spécifie la longueur de la précision du format.
sample.rstore.whereTable.vars.nfl	Spécifie la longueur du champ de format.
sample.rstore.whereTable.where	Spécifie une expression pour sous-ensemble les données de la table de filtre.
saveState	Spécifie la table CAS pour stocker la transformation des fonctionnalités et le modèle de génération.
saveState.caslib	Spécifie le nom de la caslib pour la table de sortie.
saveState.indexVars	Spécifie la liste des variables pour lesquelles créer des index dans la table de sortie.
saveState.lifetime	Spécifie le nombre de secondes pendant lesquelles la table doit rester en mémoire après son dernier accès. La table est supprimée si elle n'est pas consultée pendant le nombre de secondes spécifié. La valeur par défaut est 0 et la valeur minimale est 0.
saveState.memoryFormat	Spécifie le format de mémoire pour la table de sortie. La valeur par défaut est INHERIT.
saveState.memoryFormat.DVR	Utilise le format de mémoire de réduction de valeurs dupliquées. Ce format de mémoire peut réduire la consommation de mémoire et la taille du fichier lorsque les données d'entrée contiennent des valeurs dupliquées.
saveState.memoryFormat.INHERIT	Utilise le format de mémoire par défaut défini pour le serveur. Par défaut, le serveur utilise le format de mémoire standard. Si un administrateur définit la variable d'environnement CAS_DEFAULT_MEMORY_FORMAT sur DVR, le format de mémoire DVR est alors défini comme valeur par défaut pour le serveur.
saveState.memoryFormat.STANDARD	Utilise le format de mémoire standard.
saveState.name	Spécifie le nom de la table de sortie.
saveState.promote	Lorsque la valeur est True, ajoute la table de sortie avec une portée globale. Cela permet à d'autres sessions d'accéder à la table, sous réserve des contrôles d'accès. La caslib cible doit également avoir une portée globale. La valeur par défaut est FALSE.
saveState.replace	Lorsque la valeur est True, écrase une table existante portant le même nom. La valeur par défaut est FALSE.
saveState.tableRedistUpPolicy	Spécifie la politique de redistribution de la table lorsque le nombre de pods de travail augmente sur un serveur CAS en cours d'exécution.
saveState.tableRedistUpPolicy.DEFER	Différer la sélection de la politique de redistribution à une entité de niveau supérieur.
saveState.tableRedistUpPolicy.NOREDIST	Ne pas redistribuer les données de la table lorsque le nombre de pods de travail change sur un serveur CAS en cours d'exécution.
saveState.tableRedistUpPolicy.REBALANCE	Rééquilibrer les données de la table lorsque le nombre de pods de travail change sur un serveur CAS en cours d'exécution.
seed	Spécifie une valeur de départ pour la génération de nombres aléatoires. Cette valeur est utilisée pour la génération de nombres aléatoires reproductibles dans certains scénarios. La valeur par défaut est 0.
table	Spécifie le nom de la table, la caslib et d'autres paramètres communs.
table.caslib	Spécifie la caslib pour la table d'entrée que vous souhaitez utiliser avec l'action. Par défaut, la caslib active est utilisée. Spécifiez une valeur uniquement si vous devez accéder à une table à partir d'une autre caslib.
table.computedOnDemand	Lorsque la valeur est True, crée les variables calculées lorsque la table est chargée au lieu de lorsque l'action commence. La valeur par défaut est FALSE.
table.computedVars	Spécifie les noms des variables calculées à créer. Spécifiez une expression pour chaque variable dans le paramètre computedVarsProgram. Si vous ne spécifiez pas ce paramètre, toutes les variables de computedVarsProgram sont automatiquement incluses.
table.computedVars.format	Spécifie le format à appliquer à la variable.
table.computedVars.formattedLength	Spécifie la longueur du champ de format plus la longueur de la précision du format.
table.computedVars.label	Spécifie le libellé descriptif de la variable.
table.computedVars.name	Spécifie le nom de la variable.
table.computedVars.nfd	Spécifie la longueur de la précision du format.
table.computedVars.nfl	Spécifie la longueur du champ de format.
table.computedVarsProgram	Spécifie une expression pour chaque variable calculée que vous incluez dans le paramètre computedVars.
table.dataSourceOptions	Spécifie les options de la source de données.
table.importOptions	Spécifie les paramètres pour la lecture d'une table à partir d'une source de données. Pour plus d'informations sur la spécification du paramètre importOptions, consultez le paramètre commun importOptions (Annexe A : Paramètres communs).
table.name	Spécifie le nom de la table d'entrée.
table.singlePass	Lorsque la valeur est True, ne crée pas de table transitoire sur le serveur. La définition de ce paramètre sur True peut être efficace, mais les données peuvent ne pas avoir un ordre stable lors des exécutions répétées. La valeur par défaut est FALSE.
table.vars	Spécifie les variables à utiliser dans l'action.
table.vars.format	Spécifie le format à appliquer à la variable.
table.vars.formattedLength	Spécifie la longueur du champ de format plus la longueur de la précision du format.
table.vars.label	Spécifie le libellé descriptif de la variable.
table.vars.name	Spécifie le nom de la variable.
table.vars.nfd	Spécifie la longueur de la précision du format.
table.vars.nfl	Spécifie la longueur du champ de format.
table.where	Spécifie une expression pour sous-ensemble les données d'entrée.
table.whereTable	Spécifie une table d'entrée qui contient des lignes à utiliser comme filtre WHERE. Si le paramètre vars n'est pas spécifié, tous les noms de variables communs à la table d'entrée et à la table de filtrage sont utilisés pour trouver les lignes correspondantes. Si le paramètre where pour la table d'entrée et ce paramètre sont spécifiés, cette table de filtrage est appliquée en premier.
table.whereTable.casLib	Spécifie la caslib pour la table de filtre. Par défaut, la caslib active est utilisée.
table.whereTable.dataSourceOptions	Spécifie les options de la source de données. Pour plus d'informations sur la spécification du paramètre dataSourceOptions, consultez le paramètre commun dataSourceOptions (Annexe A : Paramètres communs).
table.whereTable.importOptions	Spécifie les paramètres pour la lecture d'une table à partir d'une source de données. Pour plus d'informations sur la spécification du paramètre importOptions, consultez le paramètre commun importOptions (Annexe A : Paramètres communs).
table.whereTable.name	Spécifie le nom de la table de filtre.
table.whereTable.vars	Spécifie les noms de variables à utiliser à partir de la table de filtre.
table.whereTable.vars.format	Spécifie le format à appliquer à la variable.
table.whereTable.vars.formattedLength	Spécifie la longueur du champ de format plus la longueur de la précision du format.
table.whereTable.vars.label	Spécifie le libellé descriptif de la variable.
table.whereTable.vars.name	Spécifie le nom de la variable.
table.whereTable.vars.nfd	Spécifie la longueur de la précision du format.
table.whereTable.vars.nfl	Spécifie la longueur du champ de format.
table.whereTable.where	Spécifie une expression pour sous-ensemble les données de la table de filtre.

Préparation des Données Voir la fiche de ce code dataprep

Exemple de création de données

La documentation fournie ne contient pas d'exemple direct de création de données pour cette action spécifique. Généralement, les données d'entrée seraient chargées dans une table CAS avant d'appeler l'action generateShadowFeatures.

Copié !

1	/* Aucun exemple de code de création de données fourni dans la documentation HTML */

Exemples

FAQ

Qu'est-ce que l'action generateShadowFeatures ?

Quels sont les tableaux d'entrée et de sortie pour l'action generateShadowFeatures ?

Quels sont les paramètres principaux de l'action generateShadowFeatures ?

Actions associées

dataSciencePilot

analyzeMissingPatterns

L'action `analyzeMissingPatterns` effectue une analyse des modèles de valeurs...

dataSciencePilot

exploreCorrelation

Explore les corrélations linéaires et non linéaires entre les variables. Cett...

dataSciencePilot

exploreData

L'action exploreData effectue une exploration approfondie des données, inclua...

dataSciencePilot

featureMachine

L'action `featureMachine` du jeu d'actions `dataSciencePilot` est un moteur a...