Ce script crée un jeu de données contenant la population de différentes régions des États-Unis sur plusieurs décennies. Il utilise une pondération spécifique pour traiter l'Alaska et Hawaï comme des observations supplémentaires (poids négatif). Ensuite, la procédure PROC CORRESP est utilisée pour effectuer une analyse des correspondances simples, affichant les profils lignes/colonnes, les contributions au Chi-2 et générant un graphique des correspondances.
Analyse des données
Type : CREATION_INTERNE
Les données sont intégrées directement dans le code via l'instruction DATALINES au sein de l'étape DATA.
1 Bloc de code
DATA STEP Data
Explication : Création du jeu de données 'USPop' contenant les populations régionales. La variable 'w' est calculée pour pondérer les observations, attribuant un poids négatif à l'Alaska et Hawaï pour les traiter comme observations supplémentaires dans l'analyse ultérieure.
Copié !
title 'United States Population, 1920-1970';
data USPop;
* Regions:
* New England - ME, NH, VT, MA, RI, CT.
* Great Lakes - OH, IN, IL, MI, WI.
* South Atlantic - DE, MD, DC, VA, WV, NC, SC, GA, FL.
* Mountain - MT, ID, WY, CO, NM, AZ, UT, NV.
* Pacific - WA, OR, CA.
*
* Note: Multiply data values by 1000 to get populations.;
input Region $14. y1920 y1930 y1940 y1950 y1960 y1970;
label y1920 = '1920' y1930 = '1930' y1940 = '1940'
y1950 = '1950' y1960 = '1960' y1970 = '1970';
if region = 'Hawaii' or region = 'Alaska'
then w = -1000; /* Flag Supplementary Observations */
else w = 1000;
datalines;
New England 7401 8166 8437 9314 10509 11842
NY, NJ, PA 22261 26261 27539 30146 34168 37199
Great Lakes 21476 25297 26626 30399 36225 40252
Midwest 12544 13297 13517 14061 15394 16319
South Atlantic 13990 15794 17823 21182 25972 30671
KY, TN, AL, MS 8893 9887 10778 11447 12050 12803
AR, LA, OK, TX 10242 12177 13065 14538 16951 19321
Mountain 3336 3702 4150 5075 6855 8282
Pacific 5567 8195 9733 14486 20339 25454
Alaska 55 59 73 129 226 300
Hawaii 256 368 423 500 633 769
;
1
title 'United States Population, 1920-1970';
2
3
DATA USPop;
4
5
* Regions:
6
* New England - ME, NH, VT, MA, RI, CT.
7
* Great Lakes - OH, IN, IL, MI, WI.
8
* South Atlantic - DE, MD, DC, VA, WV, NC, SC, GA, FL.
9
* Mountain - MT, ID, WY, CO, NM, AZ, UT, NV.
10
* Pacific - WA, OR, CA.
11
*
12
* Note: Multiply data values by 1000 to get populations.;
13
14
INPUT Region $14. y1920 y1930 y1940 y1950 y1960 y1970;
THEN w = -1000; /* Flag Supplementary Observations */
21
ELSE w = 1000;
22
23
DATALINES;
24
New England 74018166843793141050911842
25
NY, NJ, PA 222612626127539301463416837199
26
Great Lakes 214762529726626303993622540252
27
Midwest 125441329713517140611539416319
28
South Atlantic 139901579417823211822597230671
29
KY, TN, AL, MS 8893988710778114471205012803
30
AR, LA, OK, TX 102421217713065145381695119321
31
Mountain 333637024150507568558282
32
Pacific 556781959733144862033925454
33
Alaska 555973129226300
34
Hawaii 256368423500633769
35
;
2 Bloc de code
SAS SYSTEM
Explication : Activation du système ODS Graphics pour la génération de graphiques statistiques.
Copié !
ods graphics on;
1
ods graphics on;
3 Bloc de code
PROC CORRESP
Explication : Exécution de l'analyse des correspondances. L'option 'plot(flip)' transpose les axes du graphique. La variable 'w' est utilisée pour la pondération, traitant les poids négatifs comme des données supplémentaires.
Copié !
proc corresp data=uspop print=percent observed cellchi2 rp cp chi2p
short plot(flip);
var y1920 -- y1970;
id Region;
weight w;
run;
1
PROC CORRESPDATA=uspop PRINT=percent observed cellchi2 rp cp chi2p
2
short plot(flip);
3
var y1920 -- y1970;
4
id Region;
5
weight w;
6
RUN;
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
« L'Analyse des Correspondances Simples (ACS) via PROC CORRESP est une méthode visuelle puissante pour explorer les relations entre des variables catégorielles, comme ici l'évolution de la population par région au fil des décennies. L'élégance de ce script réside dans l'utilisation d'un poids négatif (w = -1000) pour l'Alaska et Hawaï : cette technique permet de déclarer ces régions comme observations supplémentaires. Elles sont ainsi projetées sur le graphique sans influencer le calcul des dimensions principales, évitant que leur croissance atypique ne masque les tendances structurelles des régions continentales. »
SAS et tous les autres noms de produits ou de services de SAS Institute Inc. sont des marques déposées ou des marques de commerce de SAS Institute Inc. aux États-Unis et dans d'autres pays. ® indique un enregistrement aux États-Unis. WeAreCAS est un site communautaire indépendant et n'est pas affilié à SAS Institute Inc.
Ce site utilise des cookies techniques et analytiques pour améliorer votre expérience.
En savoir plus.