Exemple 3 PROC FMM : Régression de Poisson Mixte

Ce script analyse des données d'essai biologique (Ames salmonella assay). Il commence par créer un jeu de données interne, puis ajuste plusieurs modèles : une régression de Poisson simple, un modèle de mélange de Poisson à deux composants avec des effets contraints (via EQUATE et RESTRICT), et examine enfin l'impact d'une valeur aberrante en réajustant les modèles sur un sous-ensemble de données.

Analyse des données

Type : CREATION_INTERNE

Les données 'assay' sont créées directement dans le script à l'aide d'une étape DATA et de l'instruction DATALINES.

1 Bloc de code

DATA STEP Data

Explication :
Création du jeu de données 'assay' contenant les doses de quinoléine et le nombre de colonies observées. La variable 'logd' (log de la dose) est calculée.

Copié !

1	DATA assay;
2	label dose = 'Dose of quinoline (microg/plate)'
3	num = 'Observed number of colonies';
4	INPUT dose @;
5	logd = log(dose+10);
6	DO i=1 to 3; INPUT num @; OUTPUT; END;
7	DATALINES;
8	0 15 21 29
9	10 16 18 21
10	33 16 26 33
11	100 27 41 60
12	333 33 38 41
13	1000 20 27 42
14	;

2 Bloc de code

PROC FMM

Explication :
Ajustement d'un modèle de régression de Poisson standard (k=1 par défaut) pour modéliser le nombre de colonies en fonction de la dose.

Copié !

1
2	PROC FMM
3	DATA=assay;
4	model num = dose logd / dist=Poisson;
5	RUN;
6

3 Bloc de code

PROC FMM

Explication :
Ajustement d'un modèle de mélange de Poisson à deux composants (k=2). L'option 'equate=effects(dose logd)' impose que les coefficients de régression pour 'dose' et 'logd' soient identiques dans les deux composants du mélange.

Copié !

1	PROC FMM DATA=assay;
2	model num = dose logd / dist=Poisson k=2
3	equate=effects(dose logd);
4	RUN;

4 Bloc de code

PROC FMM

Explication :
Alternative à l'option EQUATE utilisant l'instruction RESTRICT pour forcer l'égalité des paramètres entre les deux composants (dose 1 = dose 2 et logd 1 = logd 2).

Copié !

1	PROC FMM DATA=assay;
2	model num = dose logd / dist=Poisson k=2;
3	restrict 'common dose' dose 1, dose -1;
4	restrict 'common logd' logd 1, logd -1;
5	RUN;

5 Bloc de code

PROC FMM

Explication :
Réajustement du modèle de mélange de Poisson (k=2) en excluant une observation aberrante (num=60) pour voir son impact sur l'ajustement.

Copié !

1	PROC FMM DATA=assay(where=(num ne 60));
2	model num = dose logd / dist=Poisson k=2
3	equate=effects(dose logd);
4	RUN;

6 Bloc de code

PROC FMM

Explication :
Réajustement du modèle de Poisson simple en excluant l'observation aberrante.

Copié !

1
2	PROC FMM
3	DATA=assay(where=(num ne 60));
4	model num = dose logd / dist=Poisson;
5	RUN;
6

Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.

Informations de Copyright : SAS SAMPLE LIBRARY

Retour à la liste

Le Conseil de l'Expert

Stéphanie

Spécialiste Machine Learning et IA.

« La procédure PROC FMM (Finite Mixture Models) est un outil de pointe pour traiter les données de comptage qui s'écartent du modèle de Poisson classique, souvent à cause d'une surdispersion ou de sous-populations cachées. Dans cet essai biologique, l'utilisation d'un modèle de mélange à deux composants ($k=2$) permet de distinguer les comportements types des réponses atypiques. L'astuce technique majeure réside dans l'option EQUATE ou l'instruction RESTRICT : elles permettent de forcer les pentes des variables explicatives (dose et log-dose) à être identiques entre les groupes, isolant ainsi la variabilité sur l'ordonnée à l'origine. Cette méthode est particulièrement efficace pour détecter si une valeur extrême (comme num=60) biaise l'ensemble du modèle ou si elle appartient simplement à une composante secondaire du mélange. »