Le script est composé de deux analyses indépendantes. La première partie crée une table 'drinking' pour analyser le lien entre la consommation d'alcool et le taux de cirrhose par pays. Elle génère un nuage de points, exécute plusieurs modèles de régression avec PROC REG, y compris un modèle excluant un pays spécifique (la France), et identifie les observations influentes. La deuxième partie crée une table 'universe' contenant des données sur la distance et la vitesse de galaxies. Elle visualise ces données et ajuste un modèle de régression linéaire sans ordonnée à l'origine pour illustrer la loi de Hubble, en identifiant également les points à forte influence (leverage).
Analyse des données
Type : CREATION_INTERNE
Les deux jeux de données, 'drinking' et 'universe', sont générés au sein du script à l'aide d'un DATA STEP et de l'instruction 'cards' ou 'datalines', les rendant autonomes.
1 Bloc de code
DATA STEP Data
Explication : Crée la table de travail 'drinking' à partir de données saisies manuellement avec l'instruction 'cards'. La table contient trois variables : le nom du pays, la consommation d'alcool et le taux de cirrhose.
Copié !
data drinking;
input country $ 1-12 alcohol cirrhosis;
cards;
France 24.7 46.1
Italy 15.2 23.6
W.Germany 12.3 23.7
Austria 10.9 7.0
Belgium 10.8 12.3
USA 9.9 14.2
Canada 8.3 7.4
E&W 7.2 3.0
Sweden 6.6 7.2
Japan 5.8 10.6
Netherlands 5.7 3.7
Ireland 5.6 3.4
Norway 4.2 4.3
Finland 3.9 3.6
Israel 3.1 5.4
;
run;
1
DATA drinking;
2
INPUT country $ 1-12 alcohol cirrhosis;
3
CARDS;
4
France 24.746.1
5
Italy 15.223.6
6
W.Germany 12.323.7
7
Austria 10.97.0
8
Belgium 10.812.3
9
USA 9.914.2
10
Canada 8.37.4
11
E&W 7.23.0
12
Sweden 6.67.2
13
Japan 5.810.6
14
Netherlands 5.73.7
15
Ireland 5.63.4
16
Norway 4.24.3
17
Finland 3.93.6
18
Israel 3.15.4
19
;
20
RUN;
2 Bloc de code
PROC SGPLOT
Explication : Génère un nuage de points (scatter plot) pour visualiser la relation entre la consommation d'alcool ('alcohol') et la cirrhose ('cirrhosis'). Chaque point est étiqueté avec le nom du pays. Le bloc de code commenté montre une méthode plus ancienne pour obtenir un résultat similaire avec PROC GPLOT.
Explication : Effectue une régression linéaire simple pour modéliser le taux de cirrhose en fonction de la consommation d'alcool. `ODS GRAPHICS ON` permet de générer automatiquement les graphiques de diagnostic de la régression. Le code commenté présente une alternative pour superposer une droite de régression sur un nuage de points avec PROC SGPLOT.
Explication : Exécute un nouveau modèle de régression linéaire en excluant l'observation pour la France, qui a été identifiée comme un point potentiellement influent dans le graphique précédent.
Copié !
proc reg data=drinking;
model cirrhosis=alcohol;
where country ne 'France';
run; quit;
1
PROC REGDATA=drinking;
2
model cirrhosis=alcohol;
3
where country ne 'France';
4
RUN; QUIT;
5 Bloc de code
PROC REG Data
Explication : Ré-exécute la régression sur l'ensemble des données et sauvegarde les statistiques de diagnostic dans une nouvelle table 'regout'. La procédure PROC PRINT est ensuite utilisée pour afficher les observations qui sont considérées comme des points atypiques (résidu studentisé absolu > 2) ou des points influents (levier > 0.3).
Copié !
proc reg data=drinking;
model cirrhosis=alcohol;
output out=regout predicted=pred student=zres h=leverage;
run; quit;
proc print data=regout;
where abs(zres)>2 or leverage>.3;
run;
Explication : Crée la table de travail 'universe' à partir de données de galaxies (ID, nom, vitesse, distance) saisies manuellement avec l'instruction 'datalines'.
Explication : Génère un nuage de points pour visualiser la relation entre la distance d'une galaxie et sa vitesse d'éloignement, en ajoutant des libellés aux axes. Le code commenté montre l'équivalent avec la procédure obsolète PROC GPLOT.
Explication : Ajuste un modèle de régression linéaire pour la vitesse en fonction de la distance. L'option `NOINT` force la droite de régression à passer par l'origine, ce qui est cohérent avec la loi de Hubble (Vitesse = H0 * Distance).
Explication : Exécute à nouveau la régression sans ordonnée à l'origine et sauvegarde les statistiques de diagnostic dans la table 'regout' (en écrasant la précédente). PROC PRINT affiche ensuite les observations avec un levier (leverage) supérieur à 0.08, identifiant ainsi les points les plus influents sur l'estimation du modèle.
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
« Cette série d'analyses SAS illustre deux piliers fondamentaux de la modélisation statistique : la détection des points influents et l'ajustement théorique des modèles. À travers deux cas d'école — la santé publique et l'astrophysique — nous observons comment la donnée brute est soumise à la rigueur de la PROC REG. »
SAS et tous les autres noms de produits ou de services de SAS Institute Inc. sont des marques déposées ou des marques de commerce de SAS Institute Inc. aux États-Unis et dans d'autres pays. ® indique un enregistrement aux États-Unis. WeAreCAS est un site communautaire indépendant et n'est pas affilié à SAS Institute Inc.
Ce site utilise des cookies techniques et analytiques pour améliorer votre expérience.
En savoir plus.