Publicado el :
Calidad de los datos CREATION_INTERNE

PROC DATAMETRICS: Análisis avanzado de la calidad de los datos

Este código también está disponible en: English Español
En espera de validación
El procedimiento DATAMETRICS es una herramienta potente para la evaluación de la calidad de los datos. Este análisis funcional detallado presenta cómo configurar el procedimiento con una gama completa de parámetros. Cubre la extracción de métricas estadísticas como la mediana, la determinación de los valores más frecuentes (frequencies), la identificación de los valores extremos (minmax) y el uso de formatos de datos para un análisis más relevante. Se presta especial atención a la integración de la Quality Knowledge Base (QKB) para análisis de identidad avanzados, así como a la optimización del rendimiento a través del parámetro 'threads'. El último ejemplo muestra una ejecución del procedimiento en una tabla cargada en memoria en el entorno CAS de SAS© Viya.
Análisis de datos

Type : CREATION_INTERNE


Los ejemplos utilizan datos generados internamente mediante DATA steps con DATALINES, garantizando su autonomía y reproducibilidad.

1 Bloque de código
DATA / PROC DATAMETRICS Data
Explicación :
Este ejemplo inicializa un conjunto de datos 'my_data' con información ficticia (nombre, dirección, ciudad, estado). Luego, el procedimiento PROC DATAMETRICS se ejecuta con los parámetros mínimos requeridos para calcular métricas de calidad de datos para las variables 'name' y 'address'. Los resultados se almacenan en la tabla 'basic_metrics'.
¡Copiado!
1DATA work.my_data;
2 LENGTH name $30 address $50 city $20 state $2;
3 INPUT name $ address $ city $ state $;
4 DATALINES;
5"John Doe" "123 Main St" "Anytown" "NY"
6"Jane Smith" "456 Oak Ave" "Anycity" "CA"
7"John Doe" "123 Main St" "Anytown" "NY"
8"Peter Jones" "789 Pine Ln" "Otherville" "TX"
9"Alice Brown" "101 Maple Dr" "Anytown" "NY"
10"Bob White" "202 Elm St" "Otherville" "TX"
11"Charlie Green" "303 Cedar Rd" "Anycity" "CA"
12"David Black" "404 Birch Ct" "Anytown" "NY"
13;
14RUN;
15 
16PROC DATAMETRICS DATA=work.my_data out=work.basic_metrics;
17 variables name address;
18 RUN;
19 
20PROC PRINT DATA=work.basic_metrics;
21 title "Métriques Basiques pour Nom et Adresse";
22RUN;
2 Bloque de código
PROC DATAMETRICS
Explicación :
Basado en los datos del ejemplo anterior, este ejemplo utiliza opciones comunes: 'frequencies=10' para los 10 valores más frecuentes, 'minmax=5' para 5 valores mínimos y máximos, y 'median' para calcular la mediana. La instrucción 'identities' se utiliza para integrar una Quality Knowledge Base (QKB) específica para la localización 'ENUSA' y la definición 'Field Content' con el fin de enriquecer el análisis de identificación.
¡Copiado!
1/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
2 
3PROC DATAMETRICS DATA=work.my_data out=work.common_metrics frequencies=10
4 minmax=5 median;
5 identities qkb='/sas/dqc/QKBLoc' locale='ENUSA' def='Field Content';
6 variables name address city;
7 RUN;
8 
9PROC PRINT DATA=work.common_metrics;
10 title "Métriques avec Fréquences, Min/Max, Médiane et QKB";
11RUN;
3 Bloque de código
PROC FORMAT / DATA / PROC DATAMETRICS
Explicación :
Este ejemplo introduce un formato personalizado para la variable 'state', y luego aplica este formato a un nuevo conjunto de datos 'formatted_data'. PROC DATAMETRICS se ejecuta posteriormente en esta tabla formateada. Las opciones 'frequencies', 'minmax' y 'threads=4' se utilizan para el procesamiento paralelo. La opción 'multiidentity' en la instrucción 'identities' permite analizar múltiples identidades de calidad de datos para las variables especificadas.
¡Copiado!
1/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
2 
3PROC FORMAT;
4 value $statefmt
5 'NY'='New York'
6 'CA'='California'
7 'TX'='Texas'
8 other='Otro';
9RUN;
10 
11DATA work.formatted_data;
12 SET work.my_data;
13 FORMAT state $statefmt.;
14RUN;
15 
16PROC DATAMETRICS DATA=work.formatted_data out=work.advanced_metrics
17 frequencies=20 minmax=10 threads=4 FORMAT;
18 identities qkb='/sas/dqc/QKBLoc' locale='ENUSA'
19 def='Field Content' multiidentity;
20 variables name address city state;
21 RUN;
22 
23PROC PRINT DATA=work.advanced_metrics;
24 title "Métriques Avancées avec Formats, Threads et Multi-identidades";
25RUN;
4 Bloque de código
CASLIB / PROC CASUTIL / PROC DATAMETRICS
Explicación :
Este ejemplo demuestra la integración con el entorno Cloud Analytic Services (CAS) de SAS Viya. El conjunto de datos 'my_data' se carga primero en una librería CAS ('casuser.my_cas_data') utilizando PROC CASUTIL. Luego, PROC DATAMETRICS se ejecuta directamente en la tabla CAS en memoria. Opciones como 'frequencies', 'minmax' y 'threads' se aplican para optimizar el análisis de métricas en un entorno distribuido. Los resultados también se almacenan en una tabla CAS.
¡Copiado!
1/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
2 
3caslib _all_ assign;
4 
5PROC CASUTIL;
6 load DATA=work.my_data outcaslib='casuser' casout='my_cas_data' replace;
7RUN;
8 
9PROC DATAMETRICS DATA=casuser.my_cas_data out=casuser.cas_metrics
10 frequencies=5 minmax=3 threads=2;
11 identities qkb='/sas/dqc/QKBLoc' locale='ENUSA' def='Field Content';
12 variables name address city;
13 RUN;
14 
15PROC PRINT DATA=casuser.cas_metrics;
16 title "Métriques via DATAMETRICS sur CAS";
17RUN;
Este material se proporciona "tal cual" por We Are Cas. No hay garantías, expresas o implícitas, en cuanto a la comerciabilidad o idoneidad para un propósito particular con respecto a los materiales o el código contenidos en este documento. We Are Cas no es responsable de los errores en este material tal como existe ahora o existirá, ni We Are Cas proporciona soporte técnico para el mismo.