dataSciencePilot

generateShadowFeatures

Description

Cette action génère des fonctionnalités "ombre" (shadow features). Elle fait partie de l'ensemble d'actions Data Science Pilot, qui fournit des actions pour automatiser les flux de travail de la science des données, y compris l'exploration, l'exécution et le classement automatiques des pipelines d'apprentissage automatique.

dataSciencePilot.generateShadowFeatures <result=results> <status=rc> /\n casOut={\n caslib="string",\n indexVars={"variable-name-1" <, "variable-name-2", ...>},\n lifetime=64-bit-integer,\n memoryFormat="DVR" | "INHERIT" | "STANDARD",\n name="table-name",\n promote=TRUE | FALSE,\n replace=TRUE | FALSE,\n tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE"},\n copyVars={"variable-name-1" <, "variable-name-2", ...>},\n distinctCountLimit=integer,\n ecdfTolerance=double,\n freq="variable-name",\n generateLevels=TRUE | FALSE,\n inputs={{format="string",\n formattedLength=integer,\n label="string",\n name="variable-name",\n nfd=integer,\n nfl=integer}},\n misraGries=TRUE | FALSE,\n nominals={"variable-name-1" <, "variable-name-2", ...>},\n nProbes=integer,\n probeMissing=TRUE | FALSE,\n rareThreshold=integer,\n rareThresholdPercent=double,\n sample={nRecords=64-bit-integer,\n rstore={caslib="string",\n dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>},\n name="table-name",\n whereTable={casLib="string",\n dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters},\n importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters},\n name="table-name",\n vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}},\n where="where-expression"}}},\n saveState={caslib="string",\n indexVars={"variable-name-1" <, "variable-name-2", ...>},\n lifetime=64-bit-integer,\n memoryFormat="DVR" | "INHERIT" | "STANDARD",\n name="table-name",\n promote=TRUE | FALSE,\n replace=TRUE | FALSE,\n tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE"},\n seed=integer,\n table={caslib="string",\n computedOnDemand=TRUE | FALSE,\n computedVars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}},\n computedVarsProgram="string",\n dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>},\n importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters},\n name="table-name",\n singlePass=TRUE | FALSE,\n vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}},\n where="where-expression",\n whereTable={casLib="string",\n dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters},\n importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters},\n name="table-name",\n vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}},\n where="where-expression"}}\n;
Paramètres
ParamètreDescription
casOut Spécifie la table CAS pour stocker les résultats de l'analyse.
casOut.caslib Spécifie le nom de la caslib pour la table de sortie.
casOut.indexVars Spécifie la liste des variables pour lesquelles créer des index dans la table de sortie.
casOut.lifetime Spécifie le nombre de secondes pendant lesquelles la table doit rester en mémoire après son dernier accès. La table est supprimée si elle n'est pas consultée pendant le nombre de secondes spécifié. La valeur par défaut est 0 et la valeur minimale est 0.
casOut.memoryFormat Spécifie le format de mémoire pour la table de sortie. La valeur par défaut est INHERIT.
casOut.memoryFormat.DVR Utilise le format de mémoire de réduction de valeurs dupliquées. Ce format de mémoire peut réduire la consommation de mémoire et la taille du fichier lorsque les données d'entrée contiennent des valeurs dupliquées.
casOut.memoryFormat.INHERIT Utilise le format de mémoire par défaut défini pour le serveur. Par défaut, le serveur utilise le format de mémoire standard. Si un administrateur définit la variable d'environnement CAS_DEFAULT_MEMORY_FORMAT sur DVR, le format de mémoire DVR est alors défini comme valeur par défaut pour le serveur.
casOut.memoryFormat.STANDARD Utilise le format de mémoire standard.
casOut.name Spécifie le nom de la table de sortie.
casOut.promote Lorsque la valeur est True, ajoute la table de sortie avec une portée globale. Cela permet à d'autres sessions d'accéder à la table, sous réserve des contrôles d'accès. La caslib cible doit également avoir une portée globale. La valeur par défaut est FALSE.
casOut.replace Lorsque la valeur est True, écrase une table existante portant le même nom. La valeur par défaut est FALSE.
casOut.tableRedistUpPolicy Spécifie la politique de redistribution de la table lorsque le nombre de pods de travail augmente sur un serveur CAS en cours d'exécution.
casOut.tableRedistUpPolicy.DEFER Différer la sélection de la politique de redistribution à une entité de niveau supérieur.
casOut.tableRedistUpPolicy.NOREDIST Ne pas redistribuer les données de la table lorsque le nombre de pods de travail change sur un serveur CAS en cours d'exécution.
casOut.tableRedistUpPolicy.REBALANCE Rééquilibrer les données de la table lorsque le nombre de pods de travail change sur un serveur CAS en cours d'exécution.
copyVars Spécifie les noms des variables à copier dans la table de sortie.
distinctCountLimit Spécifie la limite de comptage distinct. Si la limite est dépassée et que le paramètre misraGries est défini sur True, l'algorithme d'esquisse de fréquence de Misra-Gries est utilisé pour estimer la distribution de fréquence. Sinon, l'opération de comptage distinct est annulée. La valeur par défaut est 10000 et la valeur minimale est 256.
ecdfTolerance Spécifie la valeur de tolérance pour la fonction de distribution cumulative empirique. Cette valeur est utilisée par l'algorithme d'esquisse de quantile. La valeur par défaut est 0.001 et la plage est de 1E-06 à 0.1.
freq Spécifie la variable de fréquence.
generateLevels Spécifie que des niveaux, au lieu de valeurs brutes, doivent être générés. La valeur par défaut est FALSE.
inputs Spécifie les variables à utiliser pour l'analyse. Vous pouvez spécifier un sous-ensemble des variables de la table d'entrée. Pour plus d'informations sur la spécification du paramètre inputs, consultez le paramètre commun casinvardesc (Annexe A : Paramètres communs).
inputs.format Spécifie le format à appliquer à la variable.
inputs.formattedLength Spécifie la longueur du champ de format plus la longueur de la précision du format.
inputs.label Spécifie le libellé descriptif de la variable.
inputs.name Spécifie le nom de la variable.
inputs.nfd Spécifie la longueur de la précision du format.
inputs.nfl Spécifie la longueur du champ de format.
misraGries Lorsque la valeur est True, utilise l'algorithme de Misra-Gries pour l'estimation de la distribution de fréquence, si la limite de comptage distinct est dépassée. La valeur par défaut est TRUE.
nominals Spécifie les variables nominales.
nProbes Spécifie le nombre de fonctionnalités "ombre" à générer pour chaque variable. La valeur par défaut est 5 et la plage est de 1 à 20.
probeMissing Lorsque la valeur est True, génère les valeurs manquantes au taux d'observations manquantes. La valeur par défaut est TRUE.
rareThreshold Spécifie le seuil de fréquence rare. La valeur minimale (exclusive) est 0.
rareThresholdPercent Spécifie le pourcentage du seuil de fréquence rare. Les niveaux dont les fréquences sont inférieures au seuil sont regroupés. La plage est de (0, 100).
sample Spécifie les options d'échantillonnage des fonctionnalités "ombre".
sample.nRecords Nombre d'observations à échantillonner à l'aide du modèle spécifié (astore). La valeur par défaut est 1000 et la valeur minimale est 1.
sample.rstore Spécifie une table blob d'entrée où lire le modèle et l'état.
sample.rstore.caslib Spécifie la caslib pour la table d'entrée que vous souhaitez utiliser avec l'action. Par défaut, la caslib active est utilisée. Spécifiez une valeur uniquement si vous devez accéder à une table à partir d'une autre caslib.
sample.rstore.dataSourceOptions Spécifie les options de la source de données.
sample.rstore.name Spécifie le nom de la table d'entrée.
sample.rstore.whereTable Spécifie une table d'entrée qui contient des lignes à utiliser comme filtre WHERE. Si le paramètre vars n'est pas spécifié, tous les noms de variables communs à la table d'entrée et à la table de filtrage sont utilisés pour trouver les lignes correspondantes. Si le paramètre where pour la table d'entrée et ce paramètre sont spécifiés, cette table de filtrage est appliquée en premier.
sample.rstore.whereTable.casLib Spécifie la caslib pour la table de filtre. Par défaut, la caslib active est utilisée.
sample.rstore.whereTable.dataSourceOptions Spécifie les options de la source de données. Pour plus d'informations sur la spécification du paramètre dataSourceOptions, consultez le paramètre commun dataSourceOptions (Annexe A : Paramètres communs).
sample.rstore.whereTable.importOptions Spécifie les paramètres pour la lecture d'une table à partir d'une source de données. Pour plus d'informations sur la spécification du paramètre importOptions, consultez le paramètre commun importOptions (Annexe A : Paramètres communs).
sample.rstore.whereTable.name Spécifie le nom de la table de filtre.
sample.rstore.whereTable.vars Spécifie les noms de variables à utiliser à partir de la table de filtre.
sample.rstore.whereTable.vars.format Spécifie le format à appliquer à la variable.
sample.rstore.whereTable.vars.formattedLength Spécifie la longueur du champ de format plus la longueur de la précision du format.
sample.rstore.whereTable.vars.label Spécifie le libellé descriptif de la variable.
sample.rstore.whereTable.vars.name Spécifie le nom de la variable.
sample.rstore.whereTable.vars.nfd Spécifie la longueur de la précision du format.
sample.rstore.whereTable.vars.nfl Spécifie la longueur du champ de format.
sample.rstore.whereTable.where Spécifie une expression pour sous-ensemble les données de la table de filtre.
saveState Spécifie la table CAS pour stocker la transformation des fonctionnalités et le modèle de génération.
saveState.caslib Spécifie le nom de la caslib pour la table de sortie.
saveState.indexVars Spécifie la liste des variables pour lesquelles créer des index dans la table de sortie.
saveState.lifetime Spécifie le nombre de secondes pendant lesquelles la table doit rester en mémoire après son dernier accès. La table est supprimée si elle n'est pas consultée pendant le nombre de secondes spécifié. La valeur par défaut est 0 et la valeur minimale est 0.
saveState.memoryFormat Spécifie le format de mémoire pour la table de sortie. La valeur par défaut est INHERIT.
saveState.memoryFormat.DVR Utilise le format de mémoire de réduction de valeurs dupliquées. Ce format de mémoire peut réduire la consommation de mémoire et la taille du fichier lorsque les données d'entrée contiennent des valeurs dupliquées.
saveState.memoryFormat.INHERIT Utilise le format de mémoire par défaut défini pour le serveur. Par défaut, le serveur utilise le format de mémoire standard. Si un administrateur définit la variable d'environnement CAS_DEFAULT_MEMORY_FORMAT sur DVR, le format de mémoire DVR est alors défini comme valeur par défaut pour le serveur.
saveState.memoryFormat.STANDARD Utilise le format de mémoire standard.
saveState.name Spécifie le nom de la table de sortie.
saveState.promote Lorsque la valeur est True, ajoute la table de sortie avec une portée globale. Cela permet à d'autres sessions d'accéder à la table, sous réserve des contrôles d'accès. La caslib cible doit également avoir une portée globale. La valeur par défaut est FALSE.
saveState.replace Lorsque la valeur est True, écrase une table existante portant le même nom. La valeur par défaut est FALSE.
saveState.tableRedistUpPolicy Spécifie la politique de redistribution de la table lorsque le nombre de pods de travail augmente sur un serveur CAS en cours d'exécution.
saveState.tableRedistUpPolicy.DEFER Différer la sélection de la politique de redistribution à une entité de niveau supérieur.
saveState.tableRedistUpPolicy.NOREDIST Ne pas redistribuer les données de la table lorsque le nombre de pods de travail change sur un serveur CAS en cours d'exécution.
saveState.tableRedistUpPolicy.REBALANCE Rééquilibrer les données de la table lorsque le nombre de pods de travail change sur un serveur CAS en cours d'exécution.
seed Spécifie une valeur de départ pour la génération de nombres aléatoires. Cette valeur est utilisée pour la génération de nombres aléatoires reproductibles dans certains scénarios. La valeur par défaut est 0.
table Spécifie le nom de la table, la caslib et d'autres paramètres communs.
table.caslib Spécifie la caslib pour la table d'entrée que vous souhaitez utiliser avec l'action. Par défaut, la caslib active est utilisée. Spécifiez une valeur uniquement si vous devez accéder à une table à partir d'une autre caslib.
table.computedOnDemand Lorsque la valeur est True, crée les variables calculées lorsque la table est chargée au lieu de lorsque l'action commence. La valeur par défaut est FALSE.
table.computedVars Spécifie les noms des variables calculées à créer. Spécifiez une expression pour chaque variable dans le paramètre computedVarsProgram. Si vous ne spécifiez pas ce paramètre, toutes les variables de computedVarsProgram sont automatiquement incluses.
table.computedVars.format Spécifie le format à appliquer à la variable.
table.computedVars.formattedLength Spécifie la longueur du champ de format plus la longueur de la précision du format.
table.computedVars.label Spécifie le libellé descriptif de la variable.
table.computedVars.name Spécifie le nom de la variable.
table.computedVars.nfd Spécifie la longueur de la précision du format.
table.computedVars.nfl Spécifie la longueur du champ de format.
table.computedVarsProgram Spécifie une expression pour chaque variable calculée que vous incluez dans le paramètre computedVars.
table.dataSourceOptions Spécifie les options de la source de données.
table.importOptions Spécifie les paramètres pour la lecture d'une table à partir d'une source de données. Pour plus d'informations sur la spécification du paramètre importOptions, consultez le paramètre commun importOptions (Annexe A : Paramètres communs).
table.name Spécifie le nom de la table d'entrée.
table.singlePass Lorsque la valeur est True, ne crée pas de table transitoire sur le serveur. La définition de ce paramètre sur True peut être efficace, mais les données peuvent ne pas avoir un ordre stable lors des exécutions répétées. La valeur par défaut est FALSE.
table.vars Spécifie les variables à utiliser dans l'action.
table.vars.format Spécifie le format à appliquer à la variable.
table.vars.formattedLength Spécifie la longueur du champ de format plus la longueur de la précision du format.
table.vars.label Spécifie le libellé descriptif de la variable.
table.vars.name Spécifie le nom de la variable.
table.vars.nfd Spécifie la longueur de la précision du format.
table.vars.nfl Spécifie la longueur du champ de format.
table.where Spécifie une expression pour sous-ensemble les données d'entrée.
table.whereTable Spécifie une table d'entrée qui contient des lignes à utiliser comme filtre WHERE. Si le paramètre vars n'est pas spécifié, tous les noms de variables communs à la table d'entrée et à la table de filtrage sont utilisés pour trouver les lignes correspondantes. Si le paramètre where pour la table d'entrée et ce paramètre sont spécifiés, cette table de filtrage est appliquée en premier.
table.whereTable.casLib Spécifie la caslib pour la table de filtre. Par défaut, la caslib active est utilisée.
table.whereTable.dataSourceOptions Spécifie les options de la source de données. Pour plus d'informations sur la spécification du paramètre dataSourceOptions, consultez le paramètre commun dataSourceOptions (Annexe A : Paramètres communs).
table.whereTable.importOptions Spécifie les paramètres pour la lecture d'une table à partir d'une source de données. Pour plus d'informations sur la spécification du paramètre importOptions, consultez le paramètre commun importOptions (Annexe A : Paramètres communs).
table.whereTable.name Spécifie le nom de la table de filtre.
table.whereTable.vars Spécifie les noms de variables à utiliser à partir de la table de filtre.
table.whereTable.vars.format Spécifie le format à appliquer à la variable.
table.whereTable.vars.formattedLength Spécifie la longueur du champ de format plus la longueur de la précision du format.
table.whereTable.vars.label Spécifie le libellé descriptif de la variable.
table.whereTable.vars.name Spécifie le nom de la variable.
table.whereTable.vars.nfd Spécifie la longueur de la précision du format.
table.whereTable.vars.nfl Spécifie la longueur du champ de format.
table.whereTable.where Spécifie une expression pour sous-ensemble les données de la table de filtre.
Préparation des Données Voir la fiche de ce code dataprep
Exemple de création de données

La documentation fournie ne contient pas d'exemple direct de création de données pour cette action spécifique. Généralement, les données d'entrée seraient chargées dans une table CAS avant d'appeler l'action generateShadowFeatures.

Copié !
1/* Aucun exemple de code de création de données fourni dans la documentation HTML */

Exemples

FAQ

Qu'est-ce que l'action generateShadowFeatures ?
Quels sont les tableaux d'entrée et de sortie pour l'action generateShadowFeatures ?
Quels sont les paramètres principaux de l'action generateShadowFeatures ?