Le script utilise la procédure HPSPLIT pour créer un arbre de décision. Il modélise le salaire logarithmique ('logSalary') des joueurs de baseball en fonction de diverses variables explicatives tirées du jeu de données SASHELP.BASEBALL. Les variables catégorielles 'league' et 'division' sont spécifiées. Un jeu de données de sortie 'hpsplout' est créé pour stocker les résultats de la modélisation. La graine aléatoire est fixée pour la reproductibilité. Enfin, les 10 premières observations du jeu de données de sortie sont affichées via PROC PRINT pour une inspection rapide.
Analyse des données
Type : SASHELP
Le script utilise le jeu de données SASHELP.BASEBALL, qui est un jeu de données d'exemple standard fourni avec SAS, contenant des informations sur les joueurs de baseball, notamment des statistiques de carrière et le salaire.
1 Bloc de code
Configuration ODS
Explication : Active le système de destination de sortie (ODS) pour la génération de graphiques. Ceci est une pratique courante pour s'assurer que les procédures SAS qui produisent des visualisations (comme PROC HPSPLIT) génèrent leurs sorties graphiques.
Copié !
ods graphics on;
1
ods graphics on;
2 Bloc de code
PROC HPSPLIT
Explication : Exécute la procédure HPSPLIT (High Performance SPLIT) pour construire un arbre de décision. Elle utilise le jeu de données SASHELP.BASEBALL. 'seed=123' assure la reproductibilité des résultats. La déclaration 'class' identifie 'league' et 'division' comme variables catégorielles. La déclaration 'model' spécifie 'logSalary' comme variable dépendante et liste les variables explicatives utilisées pour construire l'arbre. L'option 'output out=hpsplout' crée un nouveau jeu de données 'hpsplout' contenant les résultats de la prédiction et d'autres informations.
Copié !
proc hpsplit data=sashelp.baseball seed=123;
class league division;
model logSalary = nAtBat nHits nHome nRuns nRBI nBB
yrMajor crAtBat crHits crHome crRuns crRbi
crBB league division nOuts nAssts nError;
output out=hpsplout;
run;
1
PROC HPSPLITDATA=sashelp.baseball seed=123;
2
class league division;
3
model logSalary = nAtBat nHits nHome nRuns nRBI nBB
4
yrMajor crAtBat crHits crHome crRuns crRbi
5
crBB league division nOuts nAssts nError;
6
OUTPUT out=hpsplout;
7
RUN;
3 Bloc de code
PROC PRINT
Explication : Affiche les 10 premières observations du jeu de données 'hpsplout'. Ceci est utile pour vérifier le contenu et la structure du jeu de données généré par la PROC HPSPLIT, notamment les variables de prédiction ajoutées.
Copié !
proc print data=hpsplout(obs=10); run;
1
PROC PRINTDATA=hpsplout(obs=10); RUN;
Résultat Visuel
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
Informations de Copyright : S A S S A M P L E L I B R A R Y
« Les arbres de décision sont sensibles au surapprentissage (overfitting). Après cette première exploration, je vous recommande d'utiliser l'instruction PRUNE (élagage) pour simplifier l'arbre et améliorer sa capacité de généralisation sur de nouvelles données. »
SAS et tous les autres noms de produits ou de services de SAS Institute Inc. sont des marques déposées ou des marques de commerce de SAS Institute Inc. aux États-Unis et dans d'autres pays. ® indique un enregistrement aux États-Unis. WeAreCAS est un site communautaire indépendant et n'est pas affilié à SAS Institute Inc.
Ce site utilise des cookies techniques et analytiques pour améliorer votre expérience.
En savoir plus.