Le script initie une session CAS, charge l'ensemble de données 'sashelp.baseball' en mémoire CAS sous la CASLIB 'casuser', puis charge l'action set 'decisionTree'. Il utilise ensuite l'action 'gbtreeTrain' pour construire un modèle de Gradient Boosting. Le modèle est configuré avec diverses options comme la distribution POISSON, l'arrêt précoce basé sur 'LOGLOSS', et l'importance des variables. Le modèle entraîné est enregistré en tant que table CAS 'GRADBOOST3'.
Analyse des données
Type : SASHELP
Les données source proviennent de l'ensemble de données intégré 'sashelp.baseball' de SAS, qui est ensuite chargé et traité en mémoire CAS sous la CASLIB 'casuser'.
1 Bloc de code
DATA STEP Data
Explication : Ce bloc de code initialise une session CAS et rend toutes les CASLIBs disponibles. Un DATA STEP est ensuite utilisé pour charger l'ensemble de données 'sashelp.baseball' dans la mémoire CAS sous la CASLIB 'casuser', créant ainsi une copie de travail de la table 'baseball' en mémoire CAS.
Copié !
cas;
caslib _all_ assign;
data casuser.baseball;
set sashelp.baseball;
run;
1
cas;
2
caslib _all_ assign;
3
4
DATA casuser.baseball;
5
SET sashelp.baseball;
6
RUN;
2 Bloc de code
PROC CAS
Explication : Ce bloc utilise PROC CAS pour charger l'action set 'decisionTree'. Cet action set fournit les actions nécessaires à la construction et à l'entraînement de modèles d'arbres de décision, y compris l'action de Gradient Boosting qui sera utilisée par la suite.
Copié !
proc cas;
loadactionset 'decisionTree';
quit;
1
PROC CAS;
2
LOADACTIONSET'decisionTree';
3
QUIT;
Résultat Visuel
3 Bloc de code
PROC CAS Data
Explication : Ce bloc configure la CASLIB par défaut sur 'casuser' et utilise ensuite l'action 'gbtreeTrain' de l'action set 'decisionTree' via PROC CAS. Cette action entraîne un modèle de Gradient Boosting sur la table 'baseball' (casuser.baseball), ciblant la variable 'logSalary'. Il spécifie une liste de variables d'entrée numériques et nominales, utilise une distribution POISSON, et inclut des options pour l'arrêt précoce (basé sur LOGLOSS), l'encodage des noms, la sélection gloutonne, la gestion des valeurs manquantes, la régularisation Lasso, la taille des feuilles, le taux d'apprentissage et le calcul de l'importance des variables. Le modèle entraîné est sauvegardé dans une nouvelle table CAS nommée 'GRADBOOST3'.
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
« Portez une attention particulière à la table d'importance des variables générée. Dans un modèle de Gradient Boosting, c'est votre meilleur outil pour expliquer les décisions de la "boîte noire" à vos interlocuteurs métiers »
SAS et tous les autres noms de produits ou de services de SAS Institute Inc. sont des marques déposées ou des marques de commerce de SAS Institute Inc. aux États-Unis et dans d'autres pays. ® indique un enregistrement aux États-Unis. WeAreCAS est un site communautaire indépendant et n'est pas affilié à SAS Institute Inc.
Ce site utilise des cookies techniques et analytiques pour améliorer votre expérience.
En savoir plus.