Publicado el :
Estadística CREATION_INTERNE

Prueba de diferencia de media (T-Test) en datos simulados

Este código también está disponible en: Deutsch English Français
En espera de validación
Este script pedagógico ilustra el proceso de simulación estadística. Comienza por crear una población sintética de 10 000 individuos con atributos de sexo y talla generados aleatoriamente. Calcula las verdaderas medias de la población, extrae una muestra aleatoria simple de 50 individuos y luego realiza una prueba T (Student) para determinar si la diferencia de talla media entre los sexos es estadísticamente significativa en esta muestra.
Análisis de datos

Type : CREATION_INTERNE


Los datos 'random_pop1' se generan dinámicamente en el primer paso Data Step utilizando funciones de números aleatorios (UNIFORM, NORMAL).

1 Bloque de código
DATA STEP Data
Explicación :
Generación de una tabla 'random_pop1' de 10 000 observaciones. La variable 'male' se asigna aleatoriamente (~50%). La variable 'height' (talla) se genera según una ley normal con parámetros de media y desviación estándar diferentes según el sexo.
¡Copiado!
1DATA random_pop1 (drop = i x);
2 DO i=1 to 10000;
3 x = uniform(123456);
4 IF x >.5 THEN male = 1;
5 ELSE male = 0;
6 IF male = 1 THEN height = round(71 + 4.32*normal(0), .01);
7 ELSE IF male = 0 THEN height = round(64.3 + 2.11*normal(0), .01);
8 OUTPUT;
9 END;
10RUN;
2 Bloque de código
PROC MEANS
Explicación :
Cálculo de estadísticas descriptivas (media, desviación estándar, etc.) de la variable 'height' para cada grupo de sexo (male) en el conjunto de la población generada.
¡Copiado!
1PROC MEANS DATA = random_pop1;
2 class male;
3 var height;
4 title1 "Population Mean Height for Males and Females";
5RUN;
3 Bloque de código
PROC SURVEYSELECT Data
Explicación :
Selección de una muestra aleatoria simple (SRS - Simple Random Sampling) de 50 observaciones a partir de la población 'random_pop1', almacenada en la tabla de salida 'random_subpop1'.
¡Copiado!
1PROC SURVEYSELECT DATA=random_pop1 noprint
2 seed = 2001
3 method = srs
4 sampsize = 50
5 out = random_subpop1;
6RUN;
4 Bloque de código
PROC TTEST
Explicación :
Ejecución de una prueba T de Student para muestras independientes sobre la subpoblación. Prueba la hipótesis nula según la cual las medias de talla son iguales entre hombres y mujeres.
¡Copiado!
1PROC TTEST DATA = random_subpop1;
2 class male;
3 var height;
4 title1 "T-Test for Difference in Mean Height of Males and Females in Random Population 1";
5RUN;
Este material se proporciona "tal cual" por We Are Cas. No hay garantías, expresas o implícitas, en cuanto a la comerciabilidad o idoneidad para un propósito particular con respecto a los materiales o el código contenidos en este documento. We Are Cas no es responsable de los errores en este material tal como existe ahora o existirá, ni We Are Cas proporciona soporte técnico para el mismo.