Puissance Statistique : Ne laissez plus le hasard décider de la taille de vos échantillons (T-test & GLM)

Ce code est également disponible en : Deutsch English Español
Niveau de difficulté
Confirmé
Publié le :
Stéphanie

Le Conseil de l'Expert

Stéphanie
Spécialiste Machine Learning et IA.

Le calcul de la puissance statistique est le pivot de toute planification expérimentale rigoureuse. Il permet de répondre à la question cruciale : « De combien de sujets ai-je besoin pour détecter un effet réel avec un niveau de confiance satisfaisant ? ». Ce script illustre l'utilisation de deux procédures majeures, PROC GLMPOWER pour les modèles structurés (ANOVA) et PROC POWER pour les tests d'hypothèses classiques.

Pourquoi cette démarche est-elle indispensable ?
Anticipation du Risque de Type II (β) : En visant des puissances de 0.7, 0.8 et 0.9, vous quantifiez le risque de ne pas détecter une différence qui existe pourtant réellement. Une puissance de 0.8 est le standard industriel, signifiant que vous avez 80 % de chances de rejeter l'hypothèse nulle si l'effet attendu est présent.

Adaptabilité au Modèle (GLM vs T-Test) :

PROC GLMPOWER est idéale lorsque vous avez des données pilotes (comme la table sleep). Elle utilise la structure de votre modèle linéaire pour extrapoler les besoins futurs.

PROC POWER (twosamplemeans) est l'outil de précision pour les tests de comparaison simples. En spécifiant une différence de moyennes (meandiff=3) et un écart-type (stddev=30), vous définissez la "taille de l'effet" que vous jugez cliniquement ou scientifiquement pertinente.

Visualisation Decisionnelle : L'instruction PLOT génère une courbe de puissance. C'est un outil de communication essentiel pour justifier un budget ou des ressources : elle montre visuellement le "coût" en effectifs pour chaque gain marginal de puissance.

Pourquoi l'analyse de puissance est-elle vitale ?
L'analyse de puissance permet de déterminer le nombre minimal de sujets nécessaires pour détecter un effet réel. Trop peu de sujets, et votre étude échouera à prouver quoi que ce soit même si l'effet existe. Trop de sujets, et vous gaspillez des ressources. L'utilisation du paramètre ntotal = . dans les procédures SAS permet au logiciel de résoudre l'équation pour vous en fonction de la puissance souhaitée (souvent fixée à 0.80).
Le script commence par créer un jeu de données 'sleep' simulant des scores de rappel ('recall') pour différentes durées ('hours'). Il exécute ensuite PROC GLMPOWER pour déterminer la taille d'échantillon nécessaire dans un modèle linéaire général (ANOVA) pour atteindre des puissances de 0.7, 0.8 et 0.9. Enfin, il utilise PROC POWER pour calculer la taille d'échantillon requise pour un test de comparaison de deux moyennes (t-test) avec une différence de moyenne de 3 et un écart-type de 30.
Analyse des données

Type : CREATION_INTERNE


Les données sont générées via une étape DATA avec des instructions DATALINES (valeurs 30 et 33).

1 Bloc de code
DATA STEP Data
Explication :
Création du jeu de données 'sleep' contenant une variable explicative 'hours' (1 et 2) et une variable réponse 'recall' lue depuis les datalines.
Copié !
1DATA sleep;
2 DO hours = 1 to 2;
3 INPUT recall;
4 OUTPUT;
5 END;
6 DATALINES;
730
833
9;
10RUN;
2 Bloc de code
PROC GLMPOWER
Explication :
Analyse de puissance pour un modèle linéaire général (ici une ANOVA à un facteur 'hours'). Le script demande le calcul de la taille totale de l'échantillon (ntotal = .) pour des puissances cibles de 0.7, 0.8 et 0.9, avec un écart-type supposé de 30. Un graphique de la puissance en fonction de la taille est généré.
Copié !
1PROC GLMPOWER DATA=sleep;
2 class hours;
3 model recall = hours;
4 power
5 stddev = 30
6 ntotal = .
7 power = 0.7 0.8 0.9;
8 plot x=power min=0.7 max=0.95;
9RUN;
3 Bloc de code
PROC POWER
Explication :
Calcul de puissance pour un test de comparaison de deux moyennes (t-test). Paramètres : différence de moyennes attendue de 3, alpha de 0.05, écart-type de 30. Le code demande la taille d'échantillon requise pour les niveaux de puissance spécifiés.
Copié !
1PROC POWER;
2 twosamplemeans
3 meandiff=3
4 alpha=0.05
5 ntotal = .
6 power = 0.7 0.8 0.9
7 stddev = 30
8 ;
9RUN;
L'Astuce Pro
Lors de l utilisation de PROC GLMPOWER, si vous ne disposez pas encore de donnees reelles pour estimer l ecart-type (stddev), vous pouvez utiliser une valeur issue de la litterature ou d une etude pilote. Attention toutefois : le graphique genere par l instruction PLOT est extremement sensible a cette valeur. Il est donc recommande de tester une plage de valeurs pour l ecart-type afin d evaluer la stabilite de votre futur plan d echantillonnage face a la variabilite reelle du terrain.
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.