Publié le :
Statistique CREATION_INTERNE

Analyse descriptive de variables catégorielles

Ce code est également disponible en : Deutsch English
En attente de validation
Le script commence par la création de deux ensembles de données (`height_and_weight` et `height_and_weight_20`) via des DATA steps utilisant des `datalines`. Il utilise ensuite `PROC PRINT` pour générer des rapports de liste complets ou sélectifs, `PROC SQL` comme alternative pour des requêtes similaires, et `PROC FREQ` pour obtenir des tableaux de fréquences pour les variables catégorielles, avec une démonstration de l'option `MISSING`.
Analyse des données

Type : CREATION_INTERNE


Les données sont entièrement créées au sein du script SAS via des instructions DATALINES dans des DATA steps.

1 Bloc de code
DATA STEP Data
Explication :
Crée un ensemble de données SAS nommé `height_and_weight` avec les variables `id` (caractère), `sex` (caractère), `ht_in` (numérique) et `wgt_lbs` (numérique) à partir de données en ligne fournies.
Copié !
1DATA height_and_weight;
2 INPUT id $ sex $ ht_in wgt_lbs;
3 DATALINES;
4 001 Male 71 190
5 002 Male 69 176
6 003 Female 64 130
7 004 Female 65 154
8;
9RUN;
2 Bloc de code
PROC PRINT
Explication :
Génère un rapport de liste affichant toutes les observations et variables de l'ensemble de données `height_and_weight`.
Copié !
1PROC PRINT DATA = height_and_weight;
2RUN;
3 Bloc de code
PROC SQL
Explication :
Effectue une requête SQL pour sélectionner et afficher toutes les colonnes de l'ensemble de données `height_and_weight`.
Copié !
1PROC SQL;
2 select *
3 from height_and_weight;
4QUIT;
4 Bloc de code
PROC PRINT
Explication :
Affiche un rapport de liste pour les variables `id` et `ht_in` de l'ensemble de données `height_and_weight`, sans inclure la colonne des numéros d'observation (`noobs`).
Copié !
1 
2PROC PRINT
3DATA = height_and_weight noobs;
4var id ht_in;
5RUN;
6 
5 Bloc de code
PROC SQL
Explication :
Effectue une requête SQL pour sélectionner et afficher uniquement les colonnes `id` et `ht_in` de l'ensemble de données `height_and_weight`.
Copié !
1PROC SQL;
2 SELECT id, ht_in
3 FROM height_and_weight;
4QUIT;
6 Bloc de code
DATA STEP Data
Explication :
Crée un deuxième ensemble de données SAS nommé `height_and_weight_20` avec 20 observations, incluant des valeurs manquantes pour la variable `sex`, à partir de données en ligne.
Copié !
1DATA height_and_weight_20;
2 INPUT id $ sex $ ht_in wgt_lbs;
3 DATALINES;
4 001 Male 71 190
5 002 Male 69 176
6 003 Female 64 130
7 004 Female 65 154
8 005 . 73 173
9 006 Male 69 182
10 007 Female 68 140
11 008 . 73 185
12 009 Female 71 157
13 010 Male 66 155
14 011 Male 71 213
15 012 Female 69 151
16 013 Female 66 147
17 014 Female 68 196
18 015 Male 75 212
19 016 Female 69 190
20 017 Female 66 194
21 018 Female 65 176
22 019 Female 65 176
23 020 Female 65 102
24RUN;
7 Bloc de code
PROC FREQ
Explication :
Génère des tableaux de fréquences univariés pour toutes les variables de l'ensemble de données `height_and_weight_20`.
Copié !
1PROC FREQ DATA = height_and_weight_20;
2RUN;
8 Bloc de code
PROC FREQ
Explication :
Génère un tableau de fréquences spécifiquement pour la variable `sex` de l'ensemble de données `height_and_weight_20`.
Copié !
1 
2PROC FREQ
3DATA = height_and_weight_20;
4TABLE sex;
5RUN;
6 
9 Bloc de code
PROC FREQ
Explication :
Génère un tableau de fréquences pour la variable `sex` de l'ensemble de données `height_and_weight_20`, en incluant explicitement les valeurs manquantes dans le rapport.
Copié !
1 
2PROC FREQ
3DATA = height_and_weight_20;
4TABLE sex / missing;
5RUN;
6 
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
Banner
Le Conseil de l'Expert
Expert
Stéphanie
Spécialiste Machine Learning et IA.
« Toujours commencer une analyse par une PROC FREQ. Elle ne sert pas qu'à compter ; elle permet de repérer des erreurs de saisie (comme "M" au lieu de "Male") ou des taux de non-réponse anormaux qui pourraient biaiser vos futures analyses statistiques. »