Exemple 3 Documentation PROC HPFMM : Régression de Poisson Mixte

Ce script analyse les données d'un essai Ames sur les salmonelles pour illustrer la modélisation de moyennes partiellement variables. Il compare un modèle de Poisson standard à un modèle de mélange de Poisson à deux composants (k=2). Le script montre comment contraindre les paramètres entre les composants (via l'option 'equate' ou l'instruction 'RESTRICT') et examine l'effet d'une valeur aberrante (outlier) sur l'ajustement du modèle et la surdispersion.

Analyse des données

Type : CREATION_INTERNE

Les données 'assay' contenant les doses de quinoline et le nombre de colonies observées sont créées directement dans le script via un DATA step et des datalines.

1 Bloc de code

DATA STEP Data

Explication :
Création de la table 'assay'. La variable 'dose' est lue, une transformation logarithmique 'logd' est calculée, et trois observations 'num' sont lues pour chaque dose (boucle do i=1 to 3).

Copié !

1	DATA assay;
2	label dose = 'Dose of quinoline (microg/plate)'
3	num = 'Observed number of colonies';
4	INPUT dose @;
5	logd = log(dose+10);
6	DO i=1 to 3; INPUT num @; OUTPUT; END;
7	DATALINES;
8	0 15 21 29
9	10 16 18 21
10	33 16 26 33
11	100 27 41 60
12	333 33 38 41
13	1000 20 27 42
14	;

2 Bloc de code

PROC HPFMM

Explication :
Ajustement d'un modèle de régression de Poisson standard (dist=Poisson) sur l'ensemble des données.

Copié !

1
2	PROC HPFMM
3	DATA=assay;
4	model num = dose logd / dist=Poisson;
5	RUN;
6

3 Bloc de code

PROC HPFMM

Explication :
Ajustement d'un modèle de mélange de Poisson à 2 composants (k=2). L'option 'equate=effects(dose logd)' force les coefficients de régression pour 'dose' et 'logd' à être identiques entre les deux composants.

Copié !

1	PROC HPFMM DATA=assay;
2	model num = dose logd / dist=Poisson k=2
3	equate=effects(dose logd);
4	RUN;

4 Bloc de code

PROC HPFMM

Explication :
Alternative à l'étape précédente utilisant l'instruction 'RESTRICT' pour imposer manuellement l'égalité des coefficients 'dose' et 'logd' entre le premier (1) et le second (-1) composant.

Copié !

1	PROC HPFMM DATA=assay;
2	model num = dose logd / dist=Poisson k=2;
3	restrict 'common dose' dose 1, dose -1;
4	restrict 'common logd' logd 1, logd -1;
5	RUN;

5 Bloc de code

PROC HPFMM

Explication :
Réajustement du modèle de mélange (k=2, effets égalisés) en excluant l'observation aberrante où num=60 (filtre via dataset option where).

Copié !

1	PROC HPFMM DATA=assay(where=(num ne 60));
2	model num = dose logd / dist=Poisson k=2
3	equate=effects(dose logd);
4	RUN;

6 Bloc de code

PROC HPFMM

Explication :
Réajustement du modèle de Poisson simple en excluant l'observation aberrante (num=60).

Copié !

1
2	PROC HPFMM
3	DATA=assay(where=(num ne 60));
4	model num = dose logd / dist=Poisson;
5	RUN;
6

Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.

Informations de Copyright : SAS SAMPLE LIBRARY - NAME: hpfmmex3 - PRODUCT: STAT - REF: Wang, P., Puterman, M. L., Cockburn, I., and Le, N. (1996)

Retour à la liste

Le Conseil de l'Expert

Stéphanie

Spécialiste Machine Learning et IA.

« La procédure PROC HPFMM est un outil de pointe pour traiter les données de comptage qui ne respectent pas l'hypothèse d'équidispersion de la loi de Poisson (où la moyenne égale la variance). Dans cet essai Ames, l'utilisation d'un modèle de mélange à deux composants ($k=2$) permet de capturer l'hétérogénéité des données, souvent causée par des valeurs aberrantes ou des sous-populations cachées. L'astuce technique réside dans l'option EQUATE ou l'instruction RESTRICT : elles permettent de contraindre certains paramètres (comme l'effet de la dose) à être identiques entre les composants, isolant ainsi la variabilité uniquement sur l'ordonnée à l'origine. Cette approche révèle si une seule observation extrême (ici num=60) gonfle artificiellement la variance et si un modèle de Poisson standard redevient valide une fois cette valeur écartée. »