Modèles Log-Linéaires : Analysez les interactions complexes dans vos tables de contingence via la loi de Poisson

Niveau de difficulté
Expert
Publié le :
Michael

Le Conseil de l'Expert

Michael
Responsable de l'infrastructure Viya.

Lorsqu'il s'agit d'analyser des tableaux de fréquences croisées, la PROC GENMOD offre une alternative puissante aux tests de Chi-deux classiques en utilisant un modèle log-linéaire. Ce script modélise le nombre d'individus (count) en fonction du genre et des croyances, permettant ainsi de tester statistiquement l'indépendance ou l'association entre ces facteurs.

Pourquoi cette méthodologie est-elle rigoureuse ?
Distribution de Poisson et Lien Log : Le choix dist=poisson est la norme pour des données de comptage d'événements indépendants. La fonction de lien link=log garantit que les prédictions du modèle (les effectifs attendus) restent toujours positives, ce qui est une nécessité mathématique pour des fréquences.

Analyse de l'Interaction (gen*belief) : C'est le point crucial de l'expertise. Dans un modèle log-linéaire, l'interaction représente la dépendance entre les variables. Si le terme d'interaction est statistiquement significatif, cela prouve que la croyance n'est pas répartie de la même manière selon le genre, invalidant l'hypothèse d'indépendance.

Diagnostics via OBSTATS : L'option obstats (Observation Statistics) permet de comparer les valeurs observées aux valeurs prédites par le modèle. Elle aide à identifier d'éventuels résidus importants qui signaleraient une mauvaise adéquation du modèle aux données.

Pourquoi la régression de Poisson ?
La régression de Poisson est la norme pour modéliser des données de comptage (fréquences). Contrairement à une régression linéaire classique, elle utilise une fonction de lien Log, garantissant que les valeurs prédites restent toujours positives, ce qui est mathématiquement indispensable pour des effectifs.
Ce script SAS© crée d'abord un jeu de données nommé 'belief' contenant des fréquences croisées par genre et type de croyance. Il utilise ensuite la procédure GENMOD pour ajuster un modèle log-linéaire de Poisson afin d'analyser les effets du genre, de la croyance et de leur interaction sur les comptages.
Analyse des données

Type : CREATION_INTERNE


Les données sont générées directement dans le code via l'instruction CARDS (datalines).

1 Bloc de code
DATA STEP Data
Explication :
Création de la table 'belief' à partir de données brutes incluses dans le script. La table contient trois variables : le genre (gen), la croyance (belief) et le nombre d'occurrences (count).
Copié !
1DATA belief;
2 INPUT gen $ belief $ count;
3 CARDS;
4 F Y 435
5 F N 147
6 M Y 375
7 M N 134
8 ;
2 Bloc de code
PROC GENMOD
Explication :
Exécution d'une analyse de régression généralisée. La variable dépendante 'count' est modélisée selon une distribution de Poisson avec une fonction de lien logarithmique (log-linear model). Le modèle inclut les effets principaux 'gen' et 'belief' ainsi que leur interaction.
Copié !
1PROC GENMOD DATA = belief ORDER = DATA;
2 CLASS gen belief;
3 MODEL count = gen belief gen*belief/dist=poisson link=log obstats;
4RUN;
L'Astuce Pro
Lorsque vous utilisez DIST=POISSON dans PROC GENMOD, verifiez toujours l hypothese d equidispersion (moyenne egale a la variance). Si votre critere 'Value/DF' pour la Deviance ou le Pearson Chi-Square est tres superieur a 1 dans les resultats, vous etes face a de la surdispersion. Dans ce cas, ajoutez simplement l option SCALE=DSCALE ou passez a une distribution DIST=NEGBIN (Binomiale Negative) pour corriger vos erreurs types et eviter de surestimer la significativite de vos interactions.
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.