Los ejemplos utilizan datos generados internamente a través de pasos DATA con DATALINES, lo que garantiza su autonomía y reproducibilidad.
1 Bloque de código
DATA / PROC DATAMETRICS Data
Explicación : Este ejemplo inicializa un conjunto de datos 'my_data' con información ficticia (nombre, dirección, ciudad, estado). Luego, el procedimiento PROC DATAMETRICS se ejecuta con los parámetros mínimos requeridos para calcular métricas de calidad de datos para las variables 'name' y 'address'. Los resultados se almacenan en la tabla 'basic_metrics'.
¡Copiado!
data work.my_data;
length name $30 address $50 city $20 state $2;
input name $ address $ city $ state $;
datalines;
"John Doe" "123 Main St" "Anytown" "NY"
"Jane Smith" "456 Oak Ave" "Anycity" "CA"
"John Doe" "123 Main St" "Anytown" "NY"
"Peter Jones" "789 Pine Ln" "Otherville" "TX"
"Alice Brown" "101 Maple Dr" "Anytown" "NY"
"Bob White" "202 Elm St" "Otherville" "TX"
"Charlie Green" "303 Cedar Rd" "Anycity" "CA"
"David Black" "404 Birch Ct" "Anytown" "NY"
;
run;
proc datametrics data=work.my_data out=work.basic_metrics;
variables name address;
run;
proc print data=work.basic_metrics;
title "Grundlegende Metriken für Name und Adresse";
run;
title "Grundlegende Metriken für Name und Adresse";
22
RUN;
2 Bloque de código
PROC DATAMETRICS
Explicación : Basado en los datos del ejemplo anterior, este ejemplo utiliza opciones comunes: 'frequencies=10' para los 10 valores más frecuentes, 'minmax=5' para 5 valores mínimos y máximos, y 'median' para calcular la mediana. La instrucción 'identities' se utiliza para integrar una Quality Knowledge Base (QKB) específica para la ubicación 'ENUSA' y la definición 'Field Content' para ampliar el análisis de identificación.
¡Copiado!
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
proc datametrics data=work.my_data out=work.common_metrics frequencies=10
minmax=5 median;
identities qkb='/sas/dqc/QKBLoc' locale='ENUSA' def='Field Content';
variables name address city;
run;
proc print data=work.common_metrics;
title "Metriken mit Häufigkeiten, Min/Max, Median und QKB";
run;
1
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
title "Metriken mit Häufigkeiten, Min/Max, Median und QKB";
11
RUN;
3 Bloque de código
PROC FORMAT / DATA / PROC DATAMETRICS
Explicación : Este ejemplo introduce un formato personalizado para la variable 'state' y luego aplica este formato a un nuevo conjunto de datos 'formatted_data'. PROC DATAMETRICS se ejecuta posteriormente en esta tabla formateada. Las opciones 'frequencies', 'minmax' y 'threads=4' se utilizan para el procesamiento paralelo. La opción 'multiidentity' en la instrucción 'identities' permite el análisis de múltiples identidades de calidad de datos para las variables especificadas.
¡Copiado!
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
proc format;
value $statefmt
'NY'='New York'
'CA'='California'
'TX'='Texas'
other='Autre';
run;
data work.formatted_data;
set work.my_data;
format state $statefmt.;
run;
proc datametrics data=work.formatted_data out=work.advanced_metrics
frequencies=20 minmax=10 threads=4 format;
identities qkb='/sas/dqc/QKBLoc' locale='ENUSA'
def='Field Content' multiidentity;
variables name address city state;
run;
proc print data=work.advanced_metrics;
title "Erweiterte Metriken mit Formaten, Threads und Multi-Identitäten";
run;
1
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
title "Erweiterte Metriken mit Formaten, Threads und Multi-Identitäten";
25
RUN;
4 Bloque de código
CASLIB / PROC CASUTIL / PROC DATAMETRICS
Explicación : Este ejemplo demuestra la integración con el entorno Cloud Analytic Services (CAS) de SAS Viya. El conjunto de datos 'my_data' se carga primero en una librería CAS ('casuser.my_cas_data') usando PROC CASUTIL. Luego, PROC DATAMETRICS se ejecuta directamente en la tabla CAS en memoria. Se aplican opciones como 'frequencies', 'minmax' y 'threads' para optimizar el análisis de las métricas en un entorno distribuido. Los resultados también se almacenan en una tabla CAS.
¡Copiado!
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
caslib _all_ assign;
proc casutil;
load data=work.my_data outcaslib='casuser' casout='my_cas_data' replace;
run;
proc datametrics data=casuser.my_cas_data out=casuser.cas_metrics
frequencies=5 minmax=3 threads=2;
identities qkb='/sas/dqc/QKBLoc' locale='ENUSA' def='Field Content';
variables name address city;
run;
proc print data=casuser.cas_metrics;
title "Metriken über DATAMETRICS auf CAS";
run;
1
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
Este material se proporciona "tal cual" por We Are Cas. No hay garantías, expresas o implícitas, en cuanto a la comerciabilidad o idoneidad para un propósito particular con respecto a los materiales o el código contenidos en este documento. We Are Cas no es responsable de los errores en este material tal como existe ahora o existirá, ni We Are Cas proporciona soporte técnico para el mismo.
SAS y todos los demás nombres de productos o servicios de SAS Institute Inc. son marcas registradas o marcas comerciales de SAS Institute Inc. en los EE. UU. y otros países. ® indica registro en los EE. UU. WeAreCAS es un sitio comunitario independiente y no está afiliado a SAS Institute Inc.
Este sitio utiliza cookies técnicas y analíticas para mejorar su experiencia.
Saber más.