dataSciencePilot

generateShadowFeatures

Description

Cette action génère des fonctionnalités "ombre" (shadow features). Elle fait partie de l'ensemble d'actions Data Science Pilot, qui fournit des actions pour automatiser les flux de travail de la science des données, y compris l'exploration, l'exécution et le classement automatiques des pipelines d'apprentissage automatique.

dataSciencePilot.generateShadowFeatures <result=results> <status=rc> /\n casOut={\n caslib="string",\n indexVars={"variable-name-1" <, "variable-name-2", ...>},\n lifetime=64-bit-integer,\n memoryFormat="DVR" | "INHERIT" | "STANDARD",\n name="table-name",\n promote=TRUE | FALSE,\n replace=TRUE | FALSE,\n tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE"},\n copyVars={"variable-name-1" <, "variable-name-2", ...>},\n distinctCountLimit=integer,\n ecdfTolerance=double,\n freq="variable-name",\n generateLevels=TRUE | FALSE,\n inputs={{format="string",\n formattedLength=integer,\n label="string",\n name="variable-name",\n nfd=integer,\n nfl=integer}},\n misraGries=TRUE | FALSE,\n nominals={"variable-name-1" <, "variable-name-2", ...>},\n nProbes=integer,\n probeMissing=TRUE | FALSE,\n rareThreshold=integer,\n rareThresholdPercent=double,\n sample={nRecords=64-bit-integer,\n rstore={caslib="string",\n dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>},\n name="table-name",\n whereTable={casLib="string",\n dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters},\n importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters},\n name="table-name",\n vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}},\n where="where-expression"}}},\n saveState={caslib="string",\n indexVars={"variable-name-1" <, "variable-name-2", ...>},\n lifetime=64-bit-integer,\n memoryFormat="DVR" | "INHERIT" | "STANDARD",\n name="table-name",\n promote=TRUE | FALSE,\n replace=TRUE | FALSE,\n tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE"},\n seed=integer,\n table={caslib="string",\n computedOnDemand=TRUE | FALSE,\n computedVars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}},\n computedVarsProgram="string",\n dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>},\n importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters},\n name="table-name",\n singlePass=TRUE | FALSE,\n vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}},\n where="where-expression",\n whereTable={casLib="string",\n dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters},\n importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters},\n name="table-name",\n vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}},\n where="where-expression"}}\n;
Paramètres
ParamètreDescription
casOutSpécifie la table CAS pour stocker les résultats de l'analyse.
casOut.caslibSpécifie le nom de la caslib pour la table de sortie.
casOut.indexVarsSpécifie la liste des variables pour lesquelles créer des index dans la table de sortie.
casOut.lifetimeSpécifie le nombre de secondes pendant lesquelles la table doit rester en mémoire après son dernier accès. La table est supprimée si elle n'est pas consultée pendant le nombre de secondes spécifié. La valeur par défaut est 0 et la valeur minimale est 0.
casOut.memoryFormatSpécifie le format de mémoire pour la table de sortie. La valeur par défaut est INHERIT.
casOut.memoryFormat.DVRUtilise le format de mémoire de réduction de valeurs dupliquées. Ce format de mémoire peut réduire la consommation de mémoire et la taille du fichier lorsque les données d'entrée contiennent des valeurs dupliquées.
casOut.memoryFormat.INHERITUtilise le format de mémoire par défaut défini pour le serveur. Par défaut, le serveur utilise le format de mémoire standard. Si un administrateur définit la variable d'environnement CAS_DEFAULT_MEMORY_FORMAT sur DVR, le format de mémoire DVR est alors défini comme valeur par défaut pour le serveur.
casOut.memoryFormat.STANDARDUtilise le format de mémoire standard.
casOut.nameSpécifie le nom de la table de sortie.
casOut.promoteLorsque la valeur est True, ajoute la table de sortie avec une portée globale. Cela permet à d'autres sessions d'accéder à la table, sous réserve des contrôles d'accès. La caslib cible doit également avoir une portée globale. La valeur par défaut est FALSE.
casOut.replaceLorsque la valeur est True, écrase une table existante portant le même nom. La valeur par défaut est FALSE.
casOut.tableRedistUpPolicySpécifie la politique de redistribution de la table lorsque le nombre de pods de travail augmente sur un serveur CAS en cours d'exécution.
casOut.tableRedistUpPolicy.DEFERDifférer la sélection de la politique de redistribution à une entité de niveau supérieur.
casOut.tableRedistUpPolicy.NOREDISTNe pas redistribuer les données de la table lorsque le nombre de pods de travail change sur un serveur CAS en cours d'exécution.
casOut.tableRedistUpPolicy.REBALANCERééquilibrer les données de la table lorsque le nombre de pods de travail change sur un serveur CAS en cours d'exécution.
copyVarsSpécifie les noms des variables à copier dans la table de sortie.
distinctCountLimitSpécifie la limite de comptage distinct. Si la limite est dépassée et que le paramètre misraGries est défini sur True, l'algorithme d'esquisse de fréquence de Misra-Gries est utilisé pour estimer la distribution de fréquence. Sinon, l'opération de comptage distinct est annulée. La valeur par défaut est 10000 et la valeur minimale est 256.
ecdfToleranceSpécifie la valeur de tolérance pour la fonction de distribution cumulative empirique. Cette valeur est utilisée par l'algorithme d'esquisse de quantile. La valeur par défaut est 0.001 et la plage est de 1E-06 à 0.1.
freqSpécifie la variable de fréquence.
generateLevelsSpécifie que des niveaux, au lieu de valeurs brutes, doivent être générés. La valeur par défaut est FALSE.
inputsSpécifie les variables à utiliser pour l'analyse. Vous pouvez spécifier un sous-ensemble des variables de la table d'entrée. Pour plus d'informations sur la spécification du paramètre inputs, consultez le paramètre commun casinvardesc (Annexe A : Paramètres communs).
inputs.formatSpécifie le format à appliquer à la variable.
inputs.formattedLengthSpécifie la longueur du champ de format plus la longueur de la précision du format.
inputs.labelSpécifie le libellé descriptif de la variable.
inputs.nameSpécifie le nom de la variable.
inputs.nfdSpécifie la longueur de la précision du format.
inputs.nflSpécifie la longueur du champ de format.
misraGriesLorsque la valeur est True, utilise l'algorithme de Misra-Gries pour l'estimation de la distribution de fréquence, si la limite de comptage distinct est dépassée. La valeur par défaut est TRUE.
nominalsSpécifie les variables nominales.
nProbesSpécifie le nombre de fonctionnalités "ombre" à générer pour chaque variable. La valeur par défaut est 5 et la plage est de 1 à 20.
probeMissingLorsque la valeur est True, génère les valeurs manquantes au taux d'observations manquantes. La valeur par défaut est TRUE.
rareThresholdSpécifie le seuil de fréquence rare. La valeur minimale (exclusive) est 0.
rareThresholdPercentSpécifie le pourcentage du seuil de fréquence rare. Les niveaux dont les fréquences sont inférieures au seuil sont regroupés. La plage est de (0, 100).
sampleSpécifie les options d'échantillonnage des fonctionnalités "ombre".
sample.nRecordsNombre d'observations à échantillonner à l'aide du modèle spécifié (astore). La valeur par défaut est 1000 et la valeur minimale est 1.
sample.rstoreSpécifie une table blob d'entrée où lire le modèle et l'état.
sample.rstore.caslibSpécifie la caslib pour la table d'entrée que vous souhaitez utiliser avec l'action. Par défaut, la caslib active est utilisée. Spécifiez une valeur uniquement si vous devez accéder à une table à partir d'une autre caslib.
sample.rstore.dataSourceOptionsSpécifie les options de la source de données.
sample.rstore.nameSpécifie le nom de la table d'entrée.
sample.rstore.whereTableSpécifie une table d'entrée qui contient des lignes à utiliser comme filtre WHERE. Si le paramètre vars n'est pas spécifié, tous les noms de variables communs à la table d'entrée et à la table de filtrage sont utilisés pour trouver les lignes correspondantes. Si le paramètre where pour la table d'entrée et ce paramètre sont spécifiés, cette table de filtrage est appliquée en premier.
sample.rstore.whereTable.casLibSpécifie la caslib pour la table de filtre. Par défaut, la caslib active est utilisée.
sample.rstore.whereTable.dataSourceOptionsSpécifie les options de la source de données. Pour plus d'informations sur la spécification du paramètre dataSourceOptions, consultez le paramètre commun dataSourceOptions (Annexe A : Paramètres communs).
sample.rstore.whereTable.importOptionsSpécifie les paramètres pour la lecture d'une table à partir d'une source de données. Pour plus d'informations sur la spécification du paramètre importOptions, consultez le paramètre commun importOptions (Annexe A : Paramètres communs).
sample.rstore.whereTable.nameSpécifie le nom de la table de filtre.
sample.rstore.whereTable.varsSpécifie les noms de variables à utiliser à partir de la table de filtre.
sample.rstore.whereTable.vars.formatSpécifie le format à appliquer à la variable.
sample.rstore.whereTable.vars.formattedLengthSpécifie la longueur du champ de format plus la longueur de la précision du format.
sample.rstore.whereTable.vars.labelSpécifie le libellé descriptif de la variable.
sample.rstore.whereTable.vars.nameSpécifie le nom de la variable.
sample.rstore.whereTable.vars.nfdSpécifie la longueur de la précision du format.
sample.rstore.whereTable.vars.nflSpécifie la longueur du champ de format.
sample.rstore.whereTable.whereSpécifie une expression pour sous-ensemble les données de la table de filtre.
saveStateSpécifie la table CAS pour stocker la transformation des fonctionnalités et le modèle de génération.
saveState.caslibSpécifie le nom de la caslib pour la table de sortie.
saveState.indexVarsSpécifie la liste des variables pour lesquelles créer des index dans la table de sortie.
saveState.lifetimeSpécifie le nombre de secondes pendant lesquelles la table doit rester en mémoire après son dernier accès. La table est supprimée si elle n'est pas consultée pendant le nombre de secondes spécifié. La valeur par défaut est 0 et la valeur minimale est 0.
saveState.memoryFormatSpécifie le format de mémoire pour la table de sortie. La valeur par défaut est INHERIT.
saveState.memoryFormat.DVRUtilise le format de mémoire de réduction de valeurs dupliquées. Ce format de mémoire peut réduire la consommation de mémoire et la taille du fichier lorsque les données d'entrée contiennent des valeurs dupliquées.
saveState.memoryFormat.INHERITUtilise le format de mémoire par défaut défini pour le serveur. Par défaut, le serveur utilise le format de mémoire standard. Si un administrateur définit la variable d'environnement CAS_DEFAULT_MEMORY_FORMAT sur DVR, le format de mémoire DVR est alors défini comme valeur par défaut pour le serveur.
saveState.memoryFormat.STANDARDUtilise le format de mémoire standard.
saveState.nameSpécifie le nom de la table de sortie.
saveState.promoteLorsque la valeur est True, ajoute la table de sortie avec une portée globale. Cela permet à d'autres sessions d'accéder à la table, sous réserve des contrôles d'accès. La caslib cible doit également avoir une portée globale. La valeur par défaut est FALSE.
saveState.replaceLorsque la valeur est True, écrase une table existante portant le même nom. La valeur par défaut est FALSE.
saveState.tableRedistUpPolicySpécifie la politique de redistribution de la table lorsque le nombre de pods de travail augmente sur un serveur CAS en cours d'exécution.
saveState.tableRedistUpPolicy.DEFERDifférer la sélection de la politique de redistribution à une entité de niveau supérieur.
saveState.tableRedistUpPolicy.NOREDISTNe pas redistribuer les données de la table lorsque le nombre de pods de travail change sur un serveur CAS en cours d'exécution.
saveState.tableRedistUpPolicy.REBALANCERééquilibrer les données de la table lorsque le nombre de pods de travail change sur un serveur CAS en cours d'exécution.
seedSpécifie une valeur de départ pour la génération de nombres aléatoires. Cette valeur est utilisée pour la génération de nombres aléatoires reproductibles dans certains scénarios. La valeur par défaut est 0.
tableSpécifie le nom de la table, la caslib et d'autres paramètres communs.
table.caslibSpécifie la caslib pour la table d'entrée que vous souhaitez utiliser avec l'action. Par défaut, la caslib active est utilisée. Spécifiez une valeur uniquement si vous devez accéder à une table à partir d'une autre caslib.
table.computedOnDemandLorsque la valeur est True, crée les variables calculées lorsque la table est chargée au lieu de lorsque l'action commence. La valeur par défaut est FALSE.
table.computedVarsSpécifie les noms des variables calculées à créer. Spécifiez une expression pour chaque variable dans le paramètre computedVarsProgram. Si vous ne spécifiez pas ce paramètre, toutes les variables de computedVarsProgram sont automatiquement incluses.
table.computedVars.formatSpécifie le format à appliquer à la variable.
table.computedVars.formattedLengthSpécifie la longueur du champ de format plus la longueur de la précision du format.
table.computedVars.labelSpécifie le libellé descriptif de la variable.
table.computedVars.nameSpécifie le nom de la variable.
table.computedVars.nfdSpécifie la longueur de la précision du format.
table.computedVars.nflSpécifie la longueur du champ de format.
table.computedVarsProgramSpécifie une expression pour chaque variable calculée que vous incluez dans le paramètre computedVars.
table.dataSourceOptionsSpécifie les options de la source de données.
table.importOptionsSpécifie les paramètres pour la lecture d'une table à partir d'une source de données. Pour plus d'informations sur la spécification du paramètre importOptions, consultez le paramètre commun importOptions (Annexe A : Paramètres communs).
table.nameSpécifie le nom de la table d'entrée.
table.singlePassLorsque la valeur est True, ne crée pas de table transitoire sur le serveur. La définition de ce paramètre sur True peut être efficace, mais les données peuvent ne pas avoir un ordre stable lors des exécutions répétées. La valeur par défaut est FALSE.
table.varsSpécifie les variables à utiliser dans l'action.
table.vars.formatSpécifie le format à appliquer à la variable.
table.vars.formattedLengthSpécifie la longueur du champ de format plus la longueur de la précision du format.
table.vars.labelSpécifie le libellé descriptif de la variable.
table.vars.nameSpécifie le nom de la variable.
table.vars.nfdSpécifie la longueur de la précision du format.
table.vars.nflSpécifie la longueur du champ de format.
table.whereSpécifie une expression pour sous-ensemble les données d'entrée.
table.whereTableSpécifie une table d'entrée qui contient des lignes à utiliser comme filtre WHERE. Si le paramètre vars n'est pas spécifié, tous les noms de variables communs à la table d'entrée et à la table de filtrage sont utilisés pour trouver les lignes correspondantes. Si le paramètre where pour la table d'entrée et ce paramètre sont spécifiés, cette table de filtrage est appliquée en premier.
table.whereTable.casLibSpécifie la caslib pour la table de filtre. Par défaut, la caslib active est utilisée.
table.whereTable.dataSourceOptionsSpécifie les options de la source de données. Pour plus d'informations sur la spécification du paramètre dataSourceOptions, consultez le paramètre commun dataSourceOptions (Annexe A : Paramètres communs).
table.whereTable.importOptionsSpécifie les paramètres pour la lecture d'une table à partir d'une source de données. Pour plus d'informations sur la spécification du paramètre importOptions, consultez le paramètre commun importOptions (Annexe A : Paramètres communs).
table.whereTable.nameSpécifie le nom de la table de filtre.
table.whereTable.varsSpécifie les noms de variables à utiliser à partir de la table de filtre.
table.whereTable.vars.formatSpécifie le format à appliquer à la variable.
table.whereTable.vars.formattedLengthSpécifie la longueur du champ de format plus la longueur de la précision du format.
table.whereTable.vars.labelSpécifie le libellé descriptif de la variable.
table.whereTable.vars.nameSpécifie le nom de la variable.
table.whereTable.vars.nfdSpécifie la longueur de la précision du format.
table.whereTable.vars.nflSpécifie la longueur du champ de format.
table.whereTable.whereSpécifie une expression pour sous-ensemble les données de la table de filtre.
Préparation des Données Voir la fiche de ce code dataprep
Exemple de création de données

La documentation fournie ne contient pas d'exemple direct de création de données pour cette action spécifique. Généralement, les données d'entrée seraient chargées dans une table CAS avant d'appeler l'action generateShadowFeatures.

Copié !
1/* Aucun exemple de code de création de données fourni dans la documentation HTML */

Exemples

FAQ

Qu'est-ce que l'action generateShadowFeatures ?
Quels sont les tableaux d'entrée et de sortie pour l'action generateShadowFeatures ?
Quels sont les paramètres principaux de l'action generateShadowFeatures ?