Publié le :

Exploration de données avec les procédures SAS de base

Ce code est également disponible en : Deutsch English Español
Ce script est conçu pour aider à comprendre et à valider les données en analysant les attributs des colonnes et leurs valeurs. Il utilise plusieurs procédures SAS© pour une exploration rapide et facile des données : PROC PRINT pour visualiser les observations, PROC MEANS pour des statistiques descriptives sommaires, PROC UNIVARIATE pour des statistiques plus approfondies, et PROC FREQ pour générer des tables de fréquences, ce qui est idéal pour identifier des valeurs inattendues ou incohérentes et valider la qualité des données.
Analyse des données

Type : SASHELP


Les données utilisées proviennent de la bibliothèque interne SASHELP, spécifiquement les jeux de données `sashelp.class` et `sashelp.cars`.

1 Bloc de code
PROC PRINT
Explication :
Affiche l'intégralité du jeu de données `sashelp.class`, listant toutes les colonnes et toutes les observations par défaut. Utile pour une première vue d'ensemble des données.
Copié !
1PROC PRINT DATA=sashelp.class;
2RUN;
2 Bloc de code
PROC PRINT
Explication :
Affiche les 10 premières observations (lignes) du jeu de données `sashelp.class`, en utilisant l'option `obs=10` pour limiter la sortie. Cela permet d'avoir un aperçu rapide sans afficher toutes les données.
Copié !
1PROC PRINT DATA=sashelp.class (obs=10);
2RUN;
3 Bloc de code
PROC PRINT
Explication :
Affiche les 10 premières observations du jeu de données `sashelp.cars`, mais limite les colonnes affichées aux variables 'Make', 'Model', 'Type' et 'MSRP' spécifiées dans l'instruction `VAR`.
Copié !
1 
2PROC PRINT
3DATA=sashelp.cars (obs=10);
4var make model type msrp;
5RUN;
6 
4 Bloc de code
PROC MEANS
Explication :
Calcule des statistiques descriptives sommaires (par défaut : N, moyenne, écart-type, min, max) pour les variables numériques 'enginesize', 'horsepower', 'mpg_city' et 'mpg_highway' du jeu de données `sashelp.cars`. Permet d'identifier rapidement les tendances centrales et les étendues de valeurs.
Copié !
1 
2PROC MEANS
3DATA=sashelp.cars;
4var enginesize horsepower mpg_city mpg_highway;
5RUN;
6 
5 Bloc de code
PROC UNIVARIATE
Explication :
Génère des statistiques descriptives plus détaillées pour la variable numérique 'mpg_highway' du jeu de données `sashelp.cars`. Cela inclut des quantiles, des tests de normalité, des moments, des informations sur les valeurs extrêmes et des graphiques (si outputé).
Copié !
1 
2PROC UNIVARIATE
3DATA=sashelp.cars;
4var mpg_highway;
5RUN;
6 
6 Bloc de code
PROC FREQ
Explication :
Crée des tables de fréquences pour les variables catégorielles 'origin', 'type' et 'drivetrain' du jeu de données `sashelp.cars`. Chaque table présente les valeurs distinctes, leur fréquence, leur pourcentage et leurs fréquences/pourcentages cumulés. Très utile pour la validation des données et la détection d'anomalies.
Copié !
1 
2PROC FREQ
3DATA=sashelp.cars;
4tables origin type drivetrain;
5RUN;
6 
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
Banner
Le Conseil de l'Expert
Expert
Simon
Expert SAS et fondateur.
« L'exploration initiale (EDA - Exploratory Data Analysis) est l'étape la plus critique de tout projet analytique ; elle permet de transformer des données brutes en informations fiables. Ce script mobilise le "quatuor d'or" des procédures SAS pour auditer la qualité des données. Alors que la PROC PRINT offre un premier contact visuel avec les enregistrements, c'est la combinaison de la PROC MEANS et de la PROC FREQ qui révèle la structure profonde du jeu de données. Ces outils ne servent pas uniquement à produire des rapports, mais à détecter les anomalies — comme des valeurs manquantes ou des points aberrants — qui pourraient fausser vos modèles statistiques ultérieurs. »