L'action `gbtreeTrain` entraîne un arbre de boosting de gradient. Cette action nécessite une licence SAS Visual Data Mining and Machine Learning. Elle permet de construire des modèles prédictifs robustes en combinant séquentiellement de nombreux arbres de décision faibles.
| Paramètre | Description |
|---|---|
| applyRowOrder | Spécifie que vous souhaitez que l'action utilise un ordre de lignes prédéfini. Cela nécessite l'utilisation des paramètres 'orderby' et 'groupby' sur un appel d'action 'table.partition' préliminaire. (Par défaut: FALSE) |
| attributes | Spécifie des attributs temporaires, tels qu'un format, à appliquer aux variables d'entrée. Pour plus d'informations, voir le paramètre commun 'casinvardesc'. |
| auxData | Spécifie une variable pour l'apprentissage par transfert qui indique quelles observations proviennent d'une source auxiliaire. Une valeur de 0 indique une observation d'entraînement traditionnelle. D'autres valeurs indiquent des données auxiliaires. |
| binOrder | Par défaut, l'ordre des bins est conservé pour les variables numériques. Lorsque la valeur est 'FALSE', l'ordre des bins est ignoré pour les variables numériques. (Par défaut: TRUE) |
| casOut | Spécifie la table où stocker le modèle d'arbre de décision. Si non spécifié, un nom aléatoire est généré. Pour plus d'informations, voir le paramètre commun 'casouttable'. |
| code | Demande à l'action de produire du code de score SAS. Spécifiez des paramètres supplémentaires. Pour plus d'informations, voir le paramètre commun 'codegen'. Options du sous-paramètre 'casOut': - caslib: Spécifie la bibliothèque CAS pour la table de sortie. - compress: Spécifie si la table de sortie doit être compressée. (Par défaut: TRUE) - indexVars: Spécifie les variables à indexer pour la table de sortie. - label: Spécifie une étiquette pour la table de sortie. - lifetime: Spécifie la durée de vie de la table de sortie en secondes. - maxMemSize: Spécifie la taille maximale de la mémoire pour la table de sortie. - memoryFormat: Spécifie le format de la mémoire pour la table de sortie ("DVR" | "INHERIT" | "STANDARD"). - name: Spécifie le nom de la table de sortie. - promote: Spécifie si la table de sortie doit être promue. (Par défaut: TRUE) - replace: Spécifie si la table de sortie doit être remplacée si elle existe déjà. (Par défaut: FALSE) - replication: Spécifie le nombre de réplications pour la table de sortie. - tableRedistUpPolicy: Spécifie la politique de redistribution de la table de sortie ("DEFER" | "NOREDIST" | "REBALANCE"). - threadBlockSize: Spécifie la taille du bloc de threads pour la table de sortie. - timeStamp: Spécifie un horodatage pour la table de sortie. - where: Spécifie une expression WHERE pour filtrer les lignes de la table de sortie. Autres options: - comment: Ajoute des commentaires au code DATA step. (Par défaut: FALSE) - fmtWdth: Spécifie la largeur à utiliser pour formater les nombres dérivés dans le code DATA step. (Par défaut: 20, Plage: 0–32) - indentSize: Spécifie le nombre d'espaces pour indenter le code DATA step pour chaque niveau. (Par défaut: 3, Plage: 0–10) - labelId: Spécifie l'ID d'étiquette à utiliser dans les noms de tableau et les étiquettes d'instruction dans le code DATA step. - lineSize: Spécifie la taille de ligne pour le code généré. (Par défaut: 120, Plage: 64–254) - noTrim: Lorsque la valeur est 'TRUE', base la comparaison des variables avec des valeurs formatées sur la largeur de format complète avec le remplissage. (Par défaut: FALSE) - tabForm: Génère le code de manière appropriée pour le stockage dans une table. (Par défaut: FALSE) |
| codeInteractions | Demande à l'action de produire du code de score SAS pour créer des variables encodant les interactions. Vous devez également demander des interactions de variables d'au moins le degré 2. Pour plus d'informations, voir le paramètre 'viicodegen'. Options du sous-paramètre 'casOut': (mêmes que pour 'code') Autres options: (mêmes que pour 'code') |
| distribution | Spécifie la distribution dans l'arbre de boosting de gradient. (Par défaut: BINARY) - BINARY: Utile pour la classification binaire. - GAUSSIAN: Utile pour les arbres de régression. - MULTINOMIAL: Utile pour la distribution multinomiale pour la classification avec plus de deux classes. - POISSON: Utile pour la distribution de Poisson. - TWEEDIE: Utile pour la distribution de Tweedie. |
| earlyStop | Spécifie les critères d'arrêt anticipé. (Pour plus d'informations, voir 'tkcasdt_earlyStop') Options du sous-paramètre 'metric': ("ASE" | "LOGLOSS" | "MCR") - minimum: (Par défaut: FALSE) - stagnation: (Par défaut: 0, Minimum: 0) - threshold: (Par défaut: 0, Minimum: 0) - thresholdIter: (Par défaut: 0, Minimum: 0) - tolerance: (Par défaut: 0, Minimum: 0) |
| encodeName | Spécifie s'il faut encoder les noms de variables telles que les probabilités prédites d'une cible binaire ou nominale dans la table 'casout' générée. Les probabilités prédites sont nommées avec le préfixe 'P_' au lieu de '_DT_P_'. (Par défaut: FALSE) |
| fcmpEvalMetric | Spécifie la métrique d'évaluation FCMP pour les modèles d'arbre de boosting de gradient. |
| freq | Spécifie une variable numérique qui contient la fréquence d'occurrence de chaque observation. |
| greedy | Par défaut, une recherche gloutonne ou une recherche exhaustive est utilisée pour déterminer le meilleur découpage pour chaque variable de chaque nœud d'arbre. Lorsque la valeur est 'FALSE', un algorithme rapide et efficace basé sur le regroupement est appliqué. Il est recommandé de définir ce paramètre sur 'FALSE' pour les variables à forte cardinalité. (Par défaut: TRUE) |
| includeMissing | Par défaut, les observations avec des valeurs manquantes sont incluses. Lorsque la valeur est 'FALSE', les observations avec des valeurs manquantes pour les variables utilisées dans le modèle d'arbre sont ignorées lors du scoring. (Par défaut: TRUE) |
| initPred | Valeur initiale de la prédiction. (Par défaut: 0) |
| inputs | Spécifie les variables d'entrée à utiliser dans l'analyse. Pour plus d'informations, voir le paramètre commun 'casinvardesc'. |
| lasso | Spécifie la régularisation de la norme L1 sur la prédiction. La valeur doit être supérieure ou égale à zéro. (Par défaut: 0, Minimum: 0) |
| leafSize | Spécifie le nombre minimum d'observations sur chaque nœud feuille. (Par défaut: 5, Minimum: 1) |
| learningRate | Spécifie le taux d'apprentissage de chaque arbre. (Par défaut: 0.1, Plage: (0–1]) |
| logLevel | Niveau de journalisation. (Par défaut: 0, Minimum: 0) |
| m | Spécifie le nombre de variables d'entrée à considérer pour le découpage sur un nœud. Les variables sont sélectionnées au hasard parmi les variables d'entrée pour chaque arbre. (Minimum: 1) |
| maxBranch | Spécifie le nombre maximal de branches autorisées pour chaque niveau de l'arbre. (Par défaut: 2, Minimum: 1) |
| maxLevel | Spécifie le nombre maximal de niveaux de l'arbre. (Par défaut: 5, Minimum: 1) |
| mergeBin | Par défaut, lorsque la valeur la plus grande d'un bin correspond à la valeur la plus basse d'un bin voisin, les valeurs sont fusionnées dans le bin inférieur. Lorsque la valeur est 'FALSE', l'action n'essaie pas de fusionner les bins. (Par défaut: TRUE) |
| minHessian | Spécifie la valeur minimale de l'Hessien. (Par défaut: 0, Minimum: 0) |
| minUseInSearch | Spécifie un seuil pour l'utilisation des valeurs manquantes dans la recherche de découpage lorsque le paramètre 'missing' est défini sur 'USEINSEARCH'. (Par défaut: 1) |
| missing | Spécifie la politique de gestion des valeurs manquantes. (Par défaut: USEINSEARCH) - MACSMALL: Traite les valeurs manquantes pour les variables numériques comme la plus petite valeur machine et les valeurs manquantes pour les variables nominales comme un niveau distinct. - USEINSEARCH: Incorpore les valeurs manquantes dans le calcul de la valeur d'une règle de découpage. |
| modelId | Spécifie le nom de la variable ID du modèle à utiliser lors de la génération du code de score SAS. Par défaut, 'DT_' est préfixé au nom de la variable cible. |
| modelTable | Spécifie la table contenant le modèle. Pour plus d'informations, voir le paramètre commun 'castable'. |
| monoDec | Spécifie les entrées d'intervalle dont la prédiction ne devrait pas augmenter lorsque la valeur d'entrée augmente. La conformité parfaite n'est pas garantie. |
| monoInc | Spécifie les entrées d'intervalle dont la prédiction ne devrait pas diminuer lorsque la valeur d'entrée augmente. La conformité parfaite n'est pas garantie. |
| nBins | Spécifie le nombre de bins à utiliser pour les variables numériques dans le calcul de l'arbre de décision. (Par défaut: 50, Minimum: 1) |
| nominalHandling | Gestion des variables nominales ("CLASSIC" | "ENHANCED"). |
| nominals | Spécifie les variables d'entrée nominales à utiliser dans l'analyse. Pour plus d'informations, voir le paramètre commun 'casinvardesc'. |
| nominalSearch | Spécifie la méthode pour trouver un découpage sur une entrée nominale. (Pour plus d'informations, voir 'tkcasdt_nomSearchOpts') Options du sous-paramètre 'handling': ("CLASSIC" | "ENHANCED") - maxCategories: (Par défaut: 128, Minimum: 0) - shrinkage: (Par défaut: 10, Minimum: 0) - sort: (Par défaut: 10, Minimum: 0) - sortBy: ("COUNT" | "TARGET") |
| nTree | Spécifie le nombre d'arbres à créer. (Par défaut: 50, Minimum: 1) |
| offset | Spécifie une variable de décalage à utiliser avec 'distribution=POISSON' ou 'TWEEDIE'. |
| phi | Cette valeur est utile pour le paramètre de puissance dans la distribution de Tweedie. (Minimum (exclusif): 0) |
| power | Cette valeur est utile pour le paramètre de puissance dans la distribution de Tweedie. (Par défaut: 1.5, Plage: (1, 2)) |
| quantileBin | Spécifie les limites des bins aux quantiles des entrées numériques au lieu des bins de largeur égale. (Par défaut: TRUE) |
| ridge | Spécifie la régularisation de la norme L2 sur la prédiction. La valeur doit être supérieure ou égale à zéro. (Par défaut: 1, Minimum: 0) |
| saveState | Spécifie la table où stocker le modèle aStore généré. Pour plus d'informations, voir le paramètre commun 'casouttable'. |
| seed | Spécifie la graine pour le générateur de nombres aléatoires. (Par défaut: 0, Plage: 0–MACINT) |
| singular | Spécifie une petite valeur pour éviter le zéro dans la division. (Par défaut: 1E-12, Minimum: 0) |
| subSampleRate | Spécifie la fraction des données à utiliser pour la construction de chaque arbre. (Par défaut: 0.5, Plage: (0–1]) |
| table | Spécifie les paramètres d'une table d'entrée. Pour plus d'informations, voir le paramètre commun 'castable'. Options du sous-paramètre 'caslib': Spécifie la caslib pour la table d'entrée. - computedOnDemand: Crée les variables calculées lorsque la table est chargée. (Par défaut: FALSE) - computedVars: Spécifie les noms des variables calculées à créer. Pour plus d'informations, voir 'casinvardesc'. - computedVarsProgram: Spécifie une expression pour chaque variable calculée. - dataSourceOptions: Spécifie les options de la source de données. - importOptions: Spécifie les paramètres de lecture d'une table à partir d'une source de données. - name: Spécifie le nom de la table d'entrée. - singlePass: Ne crée pas de table transitoire sur le serveur. (Par défaut: FALSE) - vars: Spécifie les variables à utiliser dans l'action. Pour plus d'informations, voir 'casinvardesc'. - where: Spécifie une expression pour sous-échantillonner les données d'entrée. - whereTable: Spécifie une table d'entrée qui contient des lignes à utiliser comme filtre WHERE. |
| target | Spécifie la variable cible ou de réponse pour l'entraînement. Si la variable est numérique, mais non spécifiée dans le paramètre nominal= et nbinstarget= n'est pas spécifié, un arbre de régression est entraîné. |
| transLearnBurn | Pendant l'apprentissage par transfert, spécifie le nombre d'arbres à créer avant que la pondération des observations auxiliaires ne commence. (Par défaut: 0, Minimum: 0) |
| transLearnShrink | Pendant l'apprentissage par transfert, spécifie la quantité de réduction de poids des données auxiliaires improductives. (Par défaut: 0.9, Plage: 0–1) |
| transLearnTrim | Pendant l'apprentissage par transfert, spécifie la fraction de la distribution des gradients sur les données d'entraînement au-delà de laquelle les observations auxiliaires sont sous-pondérées. (Par défaut: 0.01, Plage: (0–0.5]) |
| validTable | Spécifie les paramètres d'une table d'entrée pour la validation. Pour plus d'informations, voir le paramètre commun 'castable'. Options du sous-paramètre 'caslib': Spécifie la caslib pour la table d'entrée. - computedOnDemand: Crée les variables calculées lorsque la table est chargée. (Par défaut: FALSE) - computedVars: Spécifie les noms des variables calculées à créer. Pour plus d'informations, voir 'casinvardesc'. - computedVarsProgram: Spécifie une expression pour chaque variable calculée. - dataSourceOptions: Spécifie les options de la source de données. - importOptions: Spécifie les paramètres de lecture d'une table à partir d'une source de données. - name: Spécifie le nom de la table d'entrée. - singlePass: Ne crée pas de table transitoire sur le serveur. (Par défaut: FALSE) - vars: Spécifie les variables à utiliser dans l'action. Pour plus d'informations, voir 'casinvardesc'. - where: Spécifie une expression pour sous-échantillonner les données d'entrée. - whereTable: Spécifie une table d'entrée qui contient des lignes à utiliser comme filtre WHERE. |
| varImp | Spécifie si les informations d'importance des variables sont générées. La valeur d'importance est déterminée par la réduction totale de Gini. (Par défaut: FALSE) |
| varIntImp | Demande l'importance de l'interaction des variables et spécifie le degré maximal d'interaction. (Par défaut: 1, Plage: 0–3) |
| weight | Spécifie une variable numérique qui contient le poids de chaque observation. |