Parole d'expert : Corriger le biais d'échantillonnage avec PROC LOGISTIC
Dans les études cas-témoins, la surreprésentation artificielle des "malades" (souvent 50% de l'échantillon) booste la puissance statistique, mais fausse totalement les probabilités prédites. L'option PEVENT est ici votre outil de calibration indispensable : elle permet d'injecter la prévalence réelle du phénomène (ex: 1% de la population) directement dans le modèle. Sans cette correction, vos tableaux de classification (CTABLE) afficheraient des taux de faux positifs et des valeurs prédictives totalement déconnectés de la réalité du terrain. En spécifiant PEVENT=0.01, vous demandez à SAS de recalculer les seuils de décision (PPROB) pour qu'ils reflètent la rareté réelle de l'événement, transformant un simple modèle statistique en un outil de diagnostic fiable.
Type : CREATION_INTERNE
Les données sont générées directement dans le script via un Data Step utilisant des boucles et l'instruction DATALINES.
| 1 | title 'Example 5. Stratified Sampling'; |
| 2 | |
| 3 | DATA Screen; |
| 4 | DO Disease='Present','Absent'; |
| 5 | DO Test=1,0; |
| 6 | INPUT Count @@; |
| 7 | OUTPUT; |
| 8 | END; |
| 9 | END; |
| 10 | DATALINES; |
| 11 | 950 50 |
| 12 | 10 990 |
| 13 | ; |
| 1 | PROC LOGISTIC DATA=Screen; |
| 2 | freq Count; |
| 3 | model Disease(event='Present')=Test |
| 4 | / pevent=.5 .01 ctable pprob=.5; |
| 5 | RUN; |