Publicado el :
Calidad de Datos CREATION_INTERNE

PROC DATAMETRICS: Análisis avanzado de calidad de datos

Este código también está disponible en: Deutsch English
En espera de validación
El procedimiento DATAMETRICS es una herramienta potente para evaluar la calidad de los datos. Este análisis detallado de la funcionalidad muestra cómo configurar el procedimiento con una gama completa de parámetros. Cubre la extracción de métricas estadísticas como la mediana, la determinación de los valores más frecuentes (frequencies), la identificación de valores extremos (minmax) y el uso de formatos de datos para un análisis más relevante. Se presta especial atención a la integración de Quality Knowledge Base (QKB) para análisis de identidad avanzados, así como a la optimización del rendimiento a través del parámetro 'threads'. El último ejemplo muestra una ejecución del procedimiento en una tabla cargada en memoria en un entorno CAS-SAS© Viya.
Análisis de datos

Type : CREATION_INTERNE


Los ejemplos utilizan datos generados internamente a través de pasos DATA con DATALINES, lo que garantiza su autonomía y reproducibilidad.

1 Bloque de código
DATA / PROC DATAMETRICS Data
Explicación :
Este ejemplo inicializa un conjunto de datos 'my_data' con información ficticia (nombre, dirección, ciudad, estado). Luego, el procedimiento PROC DATAMETRICS se ejecuta con los parámetros mínimos requeridos para calcular métricas de calidad de datos para las variables 'name' y 'address'. Los resultados se almacenan en la tabla 'basic_metrics'.
¡Copiado!
1DATA work.my_data;
2 LENGTH name $30 address $50 city $20 state $2;
3 INPUT name $ address $ city $ state $;
4 DATALINES;
5"John Doe" "123 Main St" "Anytown" "NY"
6"Jane Smith" "456 Oak Ave" "Anycity" "CA"
7"John Doe" "123 Main St" "Anytown" "NY"
8"Peter Jones" "789 Pine Ln" "Otherville" "TX"
9"Alice Brown" "101 Maple Dr" "Anytown" "NY"
10"Bob White" "202 Elm St" "Otherville" "TX"
11"Charlie Green" "303 Cedar Rd" "Anycity" "CA"
12"David Black" "404 Birch Ct" "Anytown" "NY"
13;
14RUN;
15 
16PROC DATAMETRICS DATA=work.my_data out=work.basic_metrics;
17 variables name address;
18 RUN;
19 
20PROC PRINT DATA=work.basic_metrics;
21 title "Grundlegende Metriken für Name und Adresse";
22RUN;
2 Bloque de código
PROC DATAMETRICS
Explicación :
Basado en los datos del ejemplo anterior, este ejemplo utiliza opciones comunes: 'frequencies=10' para los 10 valores más frecuentes, 'minmax=5' para 5 valores mínimos y máximos, y 'median' para calcular la mediana. La instrucción 'identities' se utiliza para integrar una Quality Knowledge Base (QKB) específica para la ubicación 'ENUSA' y la definición 'Field Content' para ampliar el análisis de identificación.
¡Copiado!
1/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
2 
3PROC DATAMETRICS DATA=work.my_data out=work.common_metrics frequencies=10
4 minmax=5 median;
5 identities qkb='/sas/dqc/QKBLoc' locale='ENUSA' def='Field Content';
6 variables name address city;
7 RUN;
8 
9PROC PRINT DATA=work.common_metrics;
10 title "Metriken mit Häufigkeiten, Min/Max, Median und QKB";
11RUN;
3 Bloque de código
PROC FORMAT / DATA / PROC DATAMETRICS
Explicación :
Este ejemplo introduce un formato personalizado para la variable 'state' y luego aplica este formato a un nuevo conjunto de datos 'formatted_data'. PROC DATAMETRICS se ejecuta posteriormente en esta tabla formateada. Las opciones 'frequencies', 'minmax' y 'threads=4' se utilizan para el procesamiento paralelo. La opción 'multiidentity' en la instrucción 'identities' permite el análisis de múltiples identidades de calidad de datos para las variables especificadas.
¡Copiado!
1/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
2 
3PROC FORMAT;
4 value $statefmt
5 'NY'='New York'
6 'CA'='California'
7 'TX'='Texas'
8 other='Autre';
9RUN;
10 
11DATA work.formatted_data;
12 SET work.my_data;
13 FORMAT state $statefmt.;
14RUN;
15 
16PROC DATAMETRICS DATA=work.formatted_data out=work.advanced_metrics
17 frequencies=20 minmax=10 threads=4 FORMAT;
18 identities qkb='/sas/dqc/QKBLoc' locale='ENUSA'
19 def='Field Content' multiidentity;
20 variables name address city state;
21 RUN;
22 
23PROC PRINT DATA=work.advanced_metrics;
24 title "Erweiterte Metriken mit Formaten, Threads und Multi-Identitäten";
25RUN;
4 Bloque de código
CASLIB / PROC CASUTIL / PROC DATAMETRICS
Explicación :
Este ejemplo demuestra la integración con el entorno Cloud Analytic Services (CAS) de SAS Viya. El conjunto de datos 'my_data' se carga primero en una librería CAS ('casuser.my_cas_data') usando PROC CASUTIL. Luego, PROC DATAMETRICS se ejecuta directamente en la tabla CAS en memoria. Se aplican opciones como 'frequencies', 'minmax' y 'threads' para optimizar el análisis de las métricas en un entorno distribuido. Los resultados también se almacenan en una tabla CAS.
¡Copiado!
1/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
2 
3caslib _all_ assign;
4 
5PROC CASUTIL;
6 load DATA=work.my_data outcaslib='casuser' casout='my_cas_data' replace;
7RUN;
8 
9PROC DATAMETRICS DATA=casuser.my_cas_data out=casuser.cas_metrics
10 frequencies=5 minmax=3 threads=2;
11 identities qkb='/sas/dqc/QKBLoc' locale='ENUSA' def='Field Content';
12 variables name address city;
13 RUN;
14 
15PROC PRINT DATA=casuser.cas_metrics;
16 title "Metriken über DATAMETRICS auf CAS";
17RUN;
Este material se proporciona "tal cual" por We Are Cas. No hay garantías, expresas o implícitas, en cuanto a la comerciabilidad o idoneidad para un propósito particular con respecto a los materiales o el código contenidos en este documento. We Are Cas no es responsable de los errores en este material tal como existe ahora o existirá, ni We Are Cas proporciona soporte técnico para el mismo.