Publié le :

Analyse avec PROC HPSPLIT

Ce code est également disponible en : Deutsch English Español
Le script utilise la procédure HPSPLIT pour créer un arbre de décision. Il modélise le salaire logarithmique ('logSalary') des joueurs de baseball en fonction de diverses variables explicatives tirées du jeu de données SASHELP.BASEBALL. Les variables catégorielles 'league' et 'division' sont spécifiées. Un jeu de données de sortie 'hpsplout' est créé pour stocker les résultats de la modélisation. La graine aléatoire est fixée pour la reproductibilité. Enfin, les 10 premières observations du jeu de données de sortie sont affichées via PROC PRINT pour une inspection rapide.
Analyse des données

Type : SASHELP


Le script utilise le jeu de données SASHELP.BASEBALL, qui est un jeu de données d'exemple standard fourni avec SAS, contenant des informations sur les joueurs de baseball, notamment des statistiques de carrière et le salaire.

1 Bloc de code
Configuration ODS
Explication :
Active le système de destination de sortie (ODS) pour la génération de graphiques. Ceci est une pratique courante pour s'assurer que les procédures SAS qui produisent des visualisations (comme PROC HPSPLIT) génèrent leurs sorties graphiques.
Copié !
1ods graphics on;
2 Bloc de code
PROC HPSPLIT
Explication :
Exécute la procédure HPSPLIT (High Performance SPLIT) pour construire un arbre de décision. Elle utilise le jeu de données SASHELP.BASEBALL. 'seed=123' assure la reproductibilité des résultats. La déclaration 'class' identifie 'league' et 'division' comme variables catégorielles. La déclaration 'model' spécifie 'logSalary' comme variable dépendante et liste les variables explicatives utilisées pour construire l'arbre. L'option 'output out=hpsplout' crée un nouveau jeu de données 'hpsplout' contenant les résultats de la prédiction et d'autres informations.
Copié !
1PROC HPSPLIT DATA=sashelp.baseball seed=123;
2 class league division;
3 model logSalary = nAtBat nHits nHome nRuns nRBI nBB
4 yrMajor crAtBat crHits crHome crRuns crRbi
5 crBB league division nOuts nAssts nError;
6 OUTPUT out=hpsplout;
7RUN;
3 Bloc de code
PROC PRINT
Explication :
Affiche les 10 premières observations du jeu de données 'hpsplout'. Ceci est utile pour vérifier le contenu et la structure du jeu de données généré par la PROC HPSPLIT, notamment les variables de prédiction ajoutées.
Copié !
1PROC PRINT DATA=hpsplout(obs=10); RUN;
Résultat Visuel
Result
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
Informations de Copyright : S A S S A M P L E L I B R A R Y


Banner
Le Conseil de l'Expert
Expert
Simon
Expert SAS et fondateur.
« Les arbres de décision sont sensibles au surapprentissage (overfitting). Après cette première exploration, je vous recommande d'utiliser l'instruction PRUNE (élagage) pour simplifier l'arbre et améliorer sa capacité de généralisation sur de nouvelles données. »