La acción `crossTab` del conjunto de acciones `simple` se utiliza para realizar tabulaciones cruzadas, también conocidas como tablas de contingencia. Permite analizar la relación entre dos o más variables categóricas, mostrando la frecuencia de cada combinación de valores. Es fundamental para el análisis exploratorio de datos, permitiendo identificar patrones, asociaciones y dependencias entre variables. La acción puede generar tablas de una o dos vías y calcular diversas estadísticas como chi-cuadrado y medidas de asociación para evaluar la independencia de las variables.
| Parámetro | Descripción |
|---|---|
| acrossBy | Cuando se establece en True, los niveles de las variables de fila y columna son los mismos a través de las variables de agrupación (group-by). |
| aggregator | Especifica el agregador para el cual los valores de la variable de ponderación se resumen en una puntuación de orden de rango si se especifica una variable de ponderación. |
| association | Cuando se establece en True, se calculan medidas de asociación entre la variable de fila y la de columna de la tabulación cruzada. |
| chiSq | Cuando se establece en True, se calculan estadísticas de chi-cuadrado para la prueba de independencia de las variables de fila y columna y sus valores p asintóticos. |
| col | Especifica la variable de columna. |
| colFormat | Especifica un formato para la variable de columna. |
| colNBins | Especifica el número de contenedores (bins) a utilizar en la discretización de la variable de columna. |
| descending | Cuando se establece en True, los niveles formateados de las variables se organizan en orden descendente. |
| fullTable | Cuando se establece en True, se realiza un escaneo completo de la tabla. |
| groupByLimit | Especifica el número máximo de niveles en un conjunto de agrupación (group-by). Cuando el servidor alcanza este número de niveles, se detiene y no devuelve un resultado. Especifique este parámetro si desea evitar la creación de conjuntos de resultados muy grandes en operaciones de agrupación. |
| includeMissing | Cuando se establece en True, los valores perdidos (missing) se incluyen en la tabulación cruzada. |
| niceBinning | Cuando se establece en True, se utiliza el algoritmo de 'nice binning' (discretización agradable) para crear intervalos con límites legibles. |
| orderByGbyRaw | Cuando se establece en True, la ordenación de las variables de agrupación (group-by) se basa en los valores brutos de las variables, no en los valores formateados. |
| row | Especifica la variable de fila. |
| rowFormat | Especifica un formato para la variable de fila. |
| rowNBins | Especifica el número de contenedores (bins) a utilizar en la discretización de la variable de fila. |
| table | Especifica la tabla de entrada que contiene los datos a analizar. |
| weight | Especifica la variable de ponderación numérica utilizada para calcular las estadísticas en la celda de la tabla y en los márgenes de la misma. |
Cargamos la tabla 'CARS' de la librería 'SASHELP' en una tabla en memoria de CAS llamada 'CARS_TABLE' para utilizarla en los ejemplos. Esta tabla contiene información sobre diferentes modelos de coches.
| 1 | |
| 2 | PROC CASUTIL; |
| 3 | load |
| 4 | DATA=sashelp.cars outcaslib="casuser" casout="cars_table" promote; |
| 5 | |
| 6 | RUN; |
| 7 |
Este ejemplo realiza una tabulación de frecuencia simple para la variable 'Type' en la tabla 'CARS_TABLE'. Esto cuenta el número de coches para cada tipo (Sedan, SUV, etc.).
| 1 | |
| 2 | PROC CAS; |
| 3 | SIMPLE.crossTab / TABLE={name="cars_table"}, row="Type"; |
| 4 | |
| 5 | RUN; |
| 6 |
Este ejemplo crea una tabla de contingencia de dos vías para analizar la relación entre el 'Origin' (origen) y el 'Type' (tipo) de los vehículos.
| 1 | |
| 2 | PROC CAS; |
| 3 | SIMPLE.crossTab / TABLE={name="cars_table"}, row="Origin", col="Type"; |
| 4 | |
| 5 | RUN; |
| 6 |
Este ejemplo realiza una tabulación cruzada de dos vías entre 'Origin' y 'Type'. Utiliza 'MSRP' como ponderación ('weight') para calcular la suma de los precios de venta para cada combinación. También solicita estadísticas de chi-cuadrado ('chiSq') y medidas de asociación ('association') para analizar la relación entre las variables.
| 1 | |
| 2 | PROC CAS; |
| 3 | SIMPLE.crossTab / TABLE={name="cars_table"}, row="Origin", col="Type", weight="MSRP", aggregator="SUM", chiSq=true, association=true; |
| 4 | |
| 5 | RUN; |
| 6 |
Este ejemplo muestra cómo agrupar una variable numérica ('Horsepower') en 5 contenedores (bins) y cruzarla con la variable 'Type'. Esto permite tratar una variable continua como si fuera categórica para el análisis de tabulación.
| 1 | |
| 2 | PROC CAS; |
| 3 | SIMPLE.crossTab / TABLE={name="cars_table"}, row="Horsepower", rowNBins=5, col="Type"; |
| 4 | |
| 5 | RUN; |
| 6 |