Publié le :
Statistique CREATION_INTERNE

Exemple 5 PROC LOGISTIC - Échantillonnage Stratifié

Ce code est également disponible en : Deutsch English Español
En attente de validation
Ce script est un exemple tiré de la bibliothèque d'échantillons SAS© (SAS© Sample Library). Il crée un jeu de données fictif 'Screen' représentant une étude cas-témoins (1000 malades, 1000 sains). Il utilise ensuite la procédure LOGISTIC pour modéliser la probabilité de maladie. L'option PEVENT est démontrée pour spécifier la prévalence réelle de la maladie dans la population (0.01) par opposition à la prévalence artificielle de l'échantillon (0.5), ce qui permet de corriger les valeurs prédictives calculées (CTABLE, PPROB).
Analyse des données

Type : CREATION_INTERNE


Les données sont générées directement dans le script via un Data Step utilisant des boucles et l'instruction DATALINES.

1 Bloc de code
DATA STEP Data
Explication :
Création du jeu de données 'Screen'. Utilise deux boucles imbriquées pour générer les combinaisons de l'état de la maladie ('Present', 'Absent') et du résultat du test (1, 0). L'instruction 'input Count @@;' lit les fréquences depuis les datalines en maintenant le pointeur de lecture sur la même ligne.
Copié !
1title 'Example 5. Stratified Sampling';
2 
3DATA Screen;
4 DO Disease='Present','Absent';
5 DO Test=1,0;
6 INPUT Count @@;
7 OUTPUT;
8 END;
9 END;
10 DATALINES;
11950 50
12 10 990
13;
2 Bloc de code
PROC LOGISTIC
Explication :
Exécution de la régression logistique. L'instruction 'freq' pondère les observations par la variable 'Count'. L'option 'pevent=.5 .01' dans l'instruction 'model' compare le modèle avec la prévalence de l'échantillon (.5) et la prévalence réelle de la population (.01). L'option 'ctable' génère une table de classification.
Copié !
1PROC LOGISTIC DATA=Screen;
2 freq Count;
3 model Disease(event='Present')=Test
4 / pevent=.5 .01 ctable pprob=.5;
5RUN;
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
Informations de Copyright : SAS SAMPLE LIBRARY / SAS Institute Inc.


Banner
Le Conseil de l'Expert
Expert
Stéphanie
Spécialiste Machine Learning et IA.
« Parole d'expert : Corriger le biais d'échantillonnage avec PROC LOGISTIC
Dans les études cas-témoins, la surreprésentation artificielle des "malades" (souvent 50% de l'échantillon) booste la puissance statistique, mais fausse totalement les probabilités prédites. L'option PEVENT est ici votre outil de calibration indispensable : elle permet d'injecter la prévalence réelle du phénomène (ex: 1% de la population) directement dans le modèle. Sans cette correction, vos tableaux de classification (CTABLE) afficheraient des taux de faux positifs et des valeurs prédictives totalement déconnectés de la réalité du terrain. En spécifiant PEVENT=0.01, vous demandez à SAS de recalculer les seuils de décision (PPROB) pour qu'ils reflètent la rareté réelle de l'événement, transformant un simple modèle statistique en un outil de diagnostic fiable. »