Publicado el :
ETL CREATION_INTERNE

Creación y Deduplicación de Datos con PROC SORT

Este código también está disponible en: English Français
En espera de validación
El script comienza con la creación de un conjunto de datos temporal llamado 'amit' utilizando un DATA STEP con datos incorporados (cards). Contiene observaciones con identificadores (id) y nombres (name) que pueden estar duplicados. Luego, se realizan dos llamadas a PROC SORT. La primera utiliza la opción NODUP para eliminar las observaciones que son duplicados exactos en todas las variables. La segunda utiliza la opción NODUPKEY para eliminar las observaciones que tienen el mismo valor para la variable especificada en la instrucción BY (aquí, 'id'), manteniendo la primera ocurrencia.
Análisis de datos

Type : CREATION_INTERNE


Los datos se crean directamente en el script SAS utilizando la instrucción 'cards;' dentro de un DATA STEP. El conjunto de datos 'amit' se genera en memoria.

1 Bloque de código
DATA STEP Data
Explicación :
Este bloque de código utiliza un DATA STEP para crear un conjunto de datos SAS llamado 'amit'. Se definen las variables 'id' (numérica), 'name' (cadena de caracteres) y 'amount' (numérica). Los datos se leen directamente del script a través de la instrucción 'cards;'.
¡Copiado!
1DATA amit;
2INPUT id name $ amount;
3CARDS;
41 Amit 22
51 Amit 22
61 Amit 23
72 Amit 23
8;
9RUN;
2 Bloque de código
PROC SORT
Explicación :
Este bloque utiliza el procedimiento PROC SORT para ordenar el conjunto de datos 'amit'. La opción 'nodup' se especifica para eliminar las observaciones que son duplicados exactos en todas las variables de la observación. El conjunto de datos resultante, 'nodup', contiene las observaciones únicas. La ordenación se realiza por la variable 'id'.
¡Copiado!
1PROC SORT DATA=amit nodup out=nodup;
2BY id;
3RUN;
3 Bloque de código
PROC SORT
Explicación :
Este bloque también utiliza el procedimiento PROC SORT. La opción 'nodupkey' se utiliza para eliminar las observaciones que tienen valores duplicados para la(s) variable(s) especificada(s) en la instrucción BY (aquí, 'id'). A diferencia de 'nodup', 'nodupkey' solo considera la clave de ordenación para la deduplicación. El conjunto de datos resultante es 'nodupkey'.
¡Copiado!
1 
2PROC SORT
3DATA=amit nodupkey out=nodupkey;
4BY id;
5RUN;
6 
Este material se proporciona "tal cual" por We Are Cas. No hay garantías, expresas o implícitas, en cuanto a la comerciabilidad o idoneidad para un propósito particular con respecto a los materiales o el código contenidos en este documento. We Are Cas no es responsable de los errores en este material tal como existe ahora o existirá, ni We Are Cas proporciona soporte técnico para el mismo.