Publié le :
Statistique CREATION_INTERNE

Exemple d'analyse de données répétées avec PROC GEE

En attente de validation
Le script crée un jeu de données nommé 'Children' qui contient des mesures répétées (4 observations par enfant) sur la présence de symptômes, l'âge, et le statut tabagique. Ensuite, il applique un modèle GEE pour évaluer l'influence de la ville, de l'âge et du tabagisme sur la probabilité d'observer un symptôme. Le modèle utilise une distribution binomiale avec un lien logit, et spécifie une structure de corrélation échangeable pour les mesures répétées au sein de chaque enfant (sujet).
Analyse des données

Type : CREATION_INTERNE


Les données sont entièrement générées en interne dans le script à l'aide d'une instruction DATALINES. La structure de lecture combine une boucle DO et un pointeur de maintien de ligne (@) pour lire plusieurs observations par ligne de données brutes.

1 Bloc de code
DATA STEP Data
Explication :
Ce DATA STEP crée la table 'Children' en lisant des données internes. L'instruction 'input ID City$ @' lit le début de chaque ligne, puis la boucle 'do i=1 to 4' lit quatre ensembles de variables (Age, Smoke, Symptom) sur cette même ligne, générant ainsi quatre observations (mesures répétées) pour chaque ID.
Copié !
1DATA Children;
2 INPUT ID City$ @;
3 DO i=1 to 4;
4 INPUT Age Smoke Symptom @;
5 OUTPUT;
6 END;
7 DATALINES;
8 1 steelcity 8 0 1 9 0 1 10 0 1 11 0 0
9 2 steelcity 8 2 1 9 2 1 10 2 1 11 1 0
10 3 steelcity 8 2 1 9 2 0 10 1 0 11 0 0
11 4 greenhills 8 0 0 9 1 1 10 1 1 11 0 0
12 5 steelcity 8 0 0 9 1 0 10 1 0 11 1 0
13 6 greenhills 8 0 1 9 0 0 10 0 0 11 0 1
14 7 steelcity 8 1 1 9 1 1 10 0 1 11 0 0
15 8 greenhills 8 1 0 9 1 0 10 1 0 11 2 0
16 9 greenhills 8 2 1 9 2 0 10 1 1 11 1 0
1710 steelcity 8 0 0 9 0 0 10 0 0 11 1 0
1811 steelcity 8 1 1 9 0 0 10 0 0 11 0 1
1912 greenhills 8 0 0 9 0 0 10 0 0 11 0 0
2013 steelcity 8 2 1 9 2 1 10 1 0 11 0 1
2114 greenhills 8 0 1 9 0 1 10 0 0 11 0 0
2215 steelcity 8 2 0 9 0 0 10 0 0 11 2 1
2316 greenhills 8 1 0 9 1 0 10 0 0 11 1 0
2417 greenhills 8 0 0 9 0 1 10 0 1 11 1 1
2518 steelcity 8 1 1 9 2 1 10 0 0 11 1 0
2619 steelcity 8 2 1 9 1 0 10 0 1 11 0 0
2720 greenhills 8 0 0 9 0 1 10 0 1 11 0 0
2821 steelcity 8 1 0 9 1 0 10 1 0 11 2 1
2922 greenhills 8 0 1 9 0 1 10 0 0 11 0 0
3023 steelcity 8 1 1 9 1 0 10 0 1 11 0 0
3124 greenhills 8 1 0 9 1 1 10 1 1 11 2 1
3225 greenhills 8 0 1 9 0 0 10 0 0 11 0 0
33;
34 
2 Bloc de code
PROC GEE
Explication :
Ce bloc applique la procédure GEE sur la table 'Children'. L'instruction 'class' définit les variables catégorielles. L'instruction 'model' spécifie un modèle de régression logistique binaire pour la variable 'Symptom'. Enfin, 'repeated' définit la structure des données répétées par sujet ('ID') et spécifie une matrice de corrélation de travail de type échangeable ('type=exch').
Copié !
1PROC GEE DATA=Children descending;
2 class ID City;
3 model Symptom = City Age Smoke / dist=bin link=logit;
4 repeated subject=ID / type=exch covb corrw;
5RUN;
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
Informations de Copyright : S A S S A M P L E L I B R A R Y


Banner
Le Conseil de l'Expert
Expert
Stéphanie
Spécialiste Machine Learning et IA.
« Si vous soupçonnez que la corrélation entre les symptômes diminue à mesure que l'écart d'âge entre deux visites augmente, essayez de comparer ce modèle avec une structure type=AR(1) (autorégressive). La comparaison des matrices de corrélation via l'option CORRW vous aidera à choisir la structure la plus proche de la réalité biologique. »