Publié le :
Statistique CREATION_INTERNE

Exemple 3 Documentation PROC HPFMM : Régression de Poisson Mixte

Ce code est également disponible en : Deutsch English Español
En attente de validation
Ce script analyse les données d'un essai Ames sur les salmonelles pour illustrer la modélisation de moyennes partiellement variables. Il compare un modèle de Poisson standard à un modèle de mélange de Poisson à deux composants (k=2). Le script montre comment contraindre les paramètres entre les composants (via l'option 'equate' ou l'instruction 'RESTRICT') et examine l'effet d'une valeur aberrante (outlier) sur l'ajustement du modèle et la surdispersion.
Analyse des données

Type : CREATION_INTERNE


Les données 'assay' contenant les doses de quinoline et le nombre de colonies observées sont créées directement dans le script via un DATA step et des datalines.

1 Bloc de code
DATA STEP Data
Explication :
Création de la table 'assay'. La variable 'dose' est lue, une transformation logarithmique 'logd' est calculée, et trois observations 'num' sont lues pour chaque dose (boucle do i=1 to 3).
Copié !
1DATA assay;
2 label dose = 'Dose of quinoline (microg/plate)'
3 num = 'Observed number of colonies';
4 INPUT dose @;
5 logd = log(dose+10);
6 DO i=1 to 3; INPUT num @; OUTPUT; END;
7 DATALINES;
8 0 15 21 29
9 10 16 18 21
10 33 16 26 33
11 100 27 41 60
12 333 33 38 41
131000 20 27 42
14;
2 Bloc de code
PROC HPFMM
Explication :
Ajustement d'un modèle de régression de Poisson standard (dist=Poisson) sur l'ensemble des données.
Copié !
1 
2PROC HPFMM
3DATA=assay;
4model num = dose logd / dist=Poisson;
5RUN;
6 
3 Bloc de code
PROC HPFMM
Explication :
Ajustement d'un modèle de mélange de Poisson à 2 composants (k=2). L'option 'equate=effects(dose logd)' force les coefficients de régression pour 'dose' et 'logd' à être identiques entre les deux composants.
Copié !
1PROC HPFMM DATA=assay;
2 model num = dose logd / dist=Poisson k=2
3 equate=effects(dose logd);
4RUN;
4 Bloc de code
PROC HPFMM
Explication :
Alternative à l'étape précédente utilisant l'instruction 'RESTRICT' pour imposer manuellement l'égalité des coefficients 'dose' et 'logd' entre le premier (1) et le second (-1) composant.
Copié !
1PROC HPFMM DATA=assay;
2 model num = dose logd / dist=Poisson k=2;
3 restrict 'common dose' dose 1, dose -1;
4 restrict 'common logd' logd 1, logd -1;
5RUN;
5 Bloc de code
PROC HPFMM
Explication :
Réajustement du modèle de mélange (k=2, effets égalisés) en excluant l'observation aberrante où num=60 (filtre via dataset option where).
Copié !
1PROC HPFMM DATA=assay(where=(num ne 60));
2 model num = dose logd / dist=Poisson k=2
3 equate=effects(dose logd);
4RUN;
6 Bloc de code
PROC HPFMM
Explication :
Réajustement du modèle de Poisson simple en excluant l'observation aberrante (num=60).
Copié !
1 
2PROC HPFMM
3DATA=assay(where=(num ne 60));
4model num = dose logd / dist=Poisson;
5RUN;
6 
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
Informations de Copyright : SAS SAMPLE LIBRARY - NAME: hpfmmex3 - PRODUCT: STAT - REF: Wang, P., Puterman, M. L., Cockburn, I., and Le, N. (1996)


Banner
Le Conseil de l'Expert
Expert
Stéphanie
Spécialiste Machine Learning et IA.
« La procédure PROC HPFMM est un outil de pointe pour traiter les données de comptage qui ne respectent pas l'hypothèse d'équidispersion de la loi de Poisson (où la moyenne égale la variance). Dans cet essai Ames, l'utilisation d'un modèle de mélange à deux composants ($k=2$) permet de capturer l'hétérogénéité des données, souvent causée par des valeurs aberrantes ou des sous-populations cachées. L'astuce technique réside dans l'option EQUATE ou l'instruction RESTRICT : elles permettent de contraindre certains paramètres (comme l'effet de la dose) à être identiques entre les composants, isolant ainsi la variabilité uniquement sur l'ordonnée à l'origine. Cette approche révèle si une seule observation extrême (ici num=60) gonfle artificiellement la variance et si un modèle de Poisson standard redevient valide une fois cette valeur écartée. »