Modélisation Binomiale : Comment évaluer l'impact des facteurs de risque avec la fonction de lien Logit ?

Niveau de difficulté
Confirmé
Publié le :
Michael

Le Conseil de l'Expert

Michael
Responsable de l'infrastructure Viya.

L'utilisation de la PROC GENMOD pour traiter des données de type "événements/essais" est la méthode de référence en épidémiologie pour quantifier l'impact d'une exposition (ici, le tabagisme) sur une issue de santé. Ce script transforme des comptages bruts en un modèle prédictif de probabilité, permettant de dépasser la simple observation pour atteindre une analyse de corrélation statistique rigoureuse.Pourquoi cette méthodologie est-elle robuste ?Gestion des données agrégées : La syntaxe yes/cases est particulièrement efficace. Elle permet au moteur SAS de traiter des groupes d'individus ayant le même niveau d'exposition en une seule unité statistique, calculant ainsi directement la probabilité $p$ de l'événement au sein de chaque strate.Fonction de lien Logit : En spécifiant link=logit, vous modélisez le logarithme de l'odd (le ratio des chances). C'est ce qui permet de transformer une probabilité bornée entre 0 et 1 en une variable continue, facilitant l'estimation de l'Odds Ratio associé à chaque unité de cigarette supplémentaire.Fiabilité des Tests de Type 3 : L'option TYPE3 génère des tests de Wald pour évaluer la significativité globale du facteur 'smoking'. C'est un indicateur plus fiable que les simples tests de paramètres, car il mesure l'apport de la variable au modèle indépendamment de sa position dans l'équation.

Pourquoi privilégier PROC GENMOD ?
Bien que la PROC LOGISTIC soit très populaire, la PROC GENMOD est le moteur de prédilection pour les Modèles Linéaires Généralisés (GLM). Elle permet une flexibilité accrue, notamment si vous souhaitez passer d'une distribution binomiale à une distribution de Poisson ou Gamma sans changer radicalement votre code.
Le script commence par une étape DATA qui lit des données internes (CARDS) concernant le tabagisme (variable 'smoking') et les comptes d'événements (oui/non). Il utilise le pointeur de maintien de ligne double '@@' pour lire plusieurs observations par ligne physique. Une variable 'cases' (total) est calculée. Ensuite, la procédure GENMOD est utilisée pour ajuster un modèle de régression logistique (distribution binomiale, fonction de lien logit) expliquant la proportion de 'yes' par la variable 'smoking'.
Analyse des données

Type : CREATION_INTERNE


Les données sont incluses directement dans le script via l'instruction CARDS.

1 Bloc de code
DATA STEP Data
Explication :
Création de la table 'smoking'. L'instruction INPUT utilise '@@' pour lire plusieurs triplets de variables (smoking, yes, no) sur une même ligne de données. La variable 'cases' est calculée comme la somme des réponses 'yes' et 'no'.
Copié !
1DATA smoking;
2 INPUT smoking yes no @@;
3 cases = yes + no;
4 CARDS;
50 90 346 7.5 57 91
619.5 65 48 30 40 18
7 ;
8RUN;
2 Bloc de code
PROC GENMOD
Explication :
Exécution d'une régression logistique généralisée. La variable dépendante est exprimée sous forme d'événements/essais (yes/cases). Le modèle utilise une distribution binomiale et une fonction de lien logit pour estimer l'effet de la variable 'smoking'.
Copié !
1 
2PROC GENMOD order=
3DATA;
4 
5MODEL yes/cases = smoking /dist=bin link=logit obstats type3;
6 
7RUN;
8 
L'Astuce Pro
Dans PROC GENMOD, l utilisation de la syntaxe yes/cases (evenements/total) impose que vos donnees soient numeriques et sans valeurs manquantes pour la variable cases. Si vous avez des groupes avec zero essai, le modele ne convergera pas. Pensez a ajouter l option LRCI dans l instruction MODEL pour obtenir les intervalles de confiance basés sur le rapport de vraisemblance (Likelihood Ratio), qui sont statistiquement plus robustes que les intervalles de Wald par defaut, surtout lorsque vos effectifs (yes) sont faibles pour certains niveaux de tabagisme.
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.