Publié le :
Statistique CREATION_INTERNE

Analyse des correspondances : Population US 1920-1970

Ce code est également disponible en : Deutsch English Español
En attente de validation
Ce script crée un jeu de données contenant la population de différentes régions des États-Unis sur plusieurs décennies. Il utilise une pondération spécifique pour traiter l'Alaska et Hawaï comme des observations supplémentaires (poids négatif). Ensuite, la procédure PROC CORRESP est utilisée pour effectuer une analyse des correspondances simples, affichant les profils lignes/colonnes, les contributions au Chi-2 et générant un graphique des correspondances.
Analyse des données

Type : CREATION_INTERNE


Les données sont intégrées directement dans le code via l'instruction DATALINES au sein de l'étape DATA.

1 Bloc de code
DATA STEP Data
Explication :
Création du jeu de données 'USPop' contenant les populations régionales. La variable 'w' est calculée pour pondérer les observations, attribuant un poids négatif à l'Alaska et Hawaï pour les traiter comme observations supplémentaires dans l'analyse ultérieure.
Copié !
1title 'United States Population, 1920-1970';
2 
3DATA USPop;
4 
5 * Regions:
6 * New England - ME, NH, VT, MA, RI, CT.
7 * Great Lakes - OH, IN, IL, MI, WI.
8 * South Atlantic - DE, MD, DC, VA, WV, NC, SC, GA, FL.
9 * Mountain - MT, ID, WY, CO, NM, AZ, UT, NV.
10 * Pacific - WA, OR, CA.
11 *
12 * Note: Multiply data values by 1000 to get populations.;
13 
14 INPUT Region $14. y1920 y1930 y1940 y1950 y1960 y1970;
15 
16 label y1920 = '1920' y1930 = '1930' y1940 = '1940'
17 y1950 = '1950' y1960 = '1960' y1970 = '1970';
18 
19 IF region = 'Hawaii' or region = 'Alaska'
20 THEN w = -1000; /* Flag Supplementary Observations */
21 ELSE w = 1000;
22 
23 DATALINES;
24New England 7401 8166 8437 9314 10509 11842
25NY, NJ, PA 22261 26261 27539 30146 34168 37199
26Great Lakes 21476 25297 26626 30399 36225 40252
27Midwest 12544 13297 13517 14061 15394 16319
28South Atlantic 13990 15794 17823 21182 25972 30671
29KY, TN, AL, MS 8893 9887 10778 11447 12050 12803
30AR, LA, OK, TX 10242 12177 13065 14538 16951 19321
31Mountain 3336 3702 4150 5075 6855 8282
32Pacific 5567 8195 9733 14486 20339 25454
33Alaska 55 59 73 129 226 300
34Hawaii 256 368 423 500 633 769
35;
2 Bloc de code
SAS SYSTEM
Explication :
Activation du système ODS Graphics pour la génération de graphiques statistiques.
Copié !
1ods graphics on;
3 Bloc de code
PROC CORRESP
Explication :
Exécution de l'analyse des correspondances. L'option 'plot(flip)' transpose les axes du graphique. La variable 'w' est utilisée pour la pondération, traitant les poids négatifs comme des données supplémentaires.
Copié !
1PROC CORRESP DATA=uspop PRINT=percent observed cellchi2 rp cp chi2p
2 short plot(flip);
3 var y1920 -- y1970;
4 id Region;
5 weight w;
6RUN;
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
Informations de Copyright : SAS SAMPLE LIBRARY


Banner
Le Conseil de l'Expert
Expert
Simon
Expert SAS et fondateur.
« L'Analyse des Correspondances Simples (ACS) via PROC CORRESP est une méthode visuelle puissante pour explorer les relations entre des variables catégorielles, comme ici l'évolution de la population par région au fil des décennies. L'élégance de ce script réside dans l'utilisation d'un poids négatif (w = -1000) pour l'Alaska et Hawaï : cette technique permet de déclarer ces régions comme observations supplémentaires. Elles sont ainsi projetées sur le graphique sans influencer le calcul des dimensions principales, évitant que leur croissance atypique ne masque les tendances structurelles des régions continentales. »