Inférence Statistique : Comment modéliser les probabilités binaires avec la fonction de lien Logit dans GENMOD ?

Niveau de difficulté
Expert
Publié le :
Simon

Le Conseil de l'Expert

Simon
Expert SAS et fondateur.

L'utilisation de la PROC GENMOD pour une régression logistique offre une flexibilité supérieure à la procédure LOGISTIC classique, notamment pour traiter des données agrégées ou issues de plans d'expériences complexes. Dans ce script, l'objectif est de quantifier l'influence de deux facteurs catégoriels — la race et le traitement (AZT) — sur la survenue d'un événement binaire.Pourquoi cette méthodologie est-elle rigoureuse ?Syntaxe Événements/Essais : L'instruction MODEL yes/cases est la méthode de référence pour traiter des données groupées. Au lieu d'avoir une ligne par patient, vous travaillez sur des proportions. SAS calcule automatiquement la probabilité $p$ de l'événement yes sur le nombre total d'essais (cases), ce qui optimise considérablement le temps de calcul sur de grands effectifs.Distribution et Fonction de Lien : En spécifiant dist=bin et link=logit, vous définissez explicitement un modèle linéaire généralisé (GLM) de type logistique. Le logit transforme la probabilité en une échelle linéaire, permettant d'estimer des Odds Ratios pour chaque facteur.Tests de Type 3 et Statistiques : L'option TYPE3 est cruciale en expertise statistique : elle fournit des tests de Wald pour chaque effet global, indépendamment de l'ordre d'entrée dans le modèle. L'option OBSTATS permet quant à elle de vérifier l'adéquation du modèle en comparant les valeurs observées aux probabilités prédites.

Pourquoi utiliser PROC GENMOD pour une logistique ?
Bien que la PROC LOGISTIC soit la plus courante, la PROC GENMOD est extrêmement puissante pour les Modèles Linéaires Généralisés (GLM). Elle permet une plus grande flexibilité si vous décidez de changer la distribution (par exemple, passer à une loi de Poisson ou Gamma) sans changer de syntaxe.
Le script commence par l'étape DATA pour saisir manuellement des données agrégées concernant l'effet de l'AZT et la race sur une issue binaire (yes/no). L'instruction INPUT utilise '@@' pour lire plusieurs observations par ligne. Une variable 'cases' (total des essais) est calculée. Ensuite, la procédure GENMOD est utilisée pour ajuster un modèle linéaire généralisé avec une distribution binomiale et une fonction de lien logit (régression logistique) pour analyser la probabilité de l'événement 'yes'.
Analyse des données

Type : CREATION_INTERNE


Les données sont incluses directement dans le code via l'instruction CARDS (données sur l'AZT et la race).

1 Bloc de code
DATA STEP Data
Explication :
Création du jeu de données 'aids'. L'opérateur '@@' dans l'instruction INPUT permet de lire plusieurs observations disposées sur une même ligne de données. La variable 'cases' est calculée comme la somme des événements (yes) et des non-événements (no).
Copié !
1DATA aids;
2 INPUT race $ azt $ yes no @@;
3 cases = yes + no;
4CARDS;
5 white y 14 93 white n 32 81
6 black y 11 52 black n 12 43
7 ;
8RUN;
2 Bloc de code
PROC GENMOD
Explication :
Exécution de la procédure GENMOD pour ajuster un modèle de régression logistique. La syntaxe 'yes/cases' indique le format événements/essais. Les options spécifient une distribution binomiale (dist=bin), une fonction de lien logit (link=logit) et demandent les statistiques au niveau des observations (obstats) ainsi que les tests de type 3 (type3).
Copié !
1PROC GENMOD order=DATA;
2 CLASS race azt;
3 MODEL yes/cases = race azt /dist=bin link=logit obstats type3;
4RUN;
L'Astuce Pro
Dans PROC GENMOD, l option ORDER=DATA est une arme a double tranchant. Elle definit l ordre des modalites des variables de classe (CLASS) selon leur apparition dans le jeu de donnees. Pour votre regression logistique, cela determine quel groupe sera la reference. Si vous voulez un controle total sur l interpretation de vos Odds Ratios, utilisez plutot l option (REF='valeur') directement dans l instruction CLASS pour eviter que vos conclusions ne changent si l ordre des lignes de votre table source est modifie par erreur.
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.