Creación y Deduplicación de Datos con PROC SORT

El script comienza con la creación de un conjunto de datos temporal llamado 'amit' utilizando un DATA STEP con datos incorporados (cards). Contiene observaciones con identificadores (id) y nombres (name) que pueden estar duplicados. Luego, se realizan dos llamadas a PROC SORT. La primera utiliza la opción NODUP para eliminar las observaciones que son duplicados exactos en todas las variables. La segunda utiliza la opción NODUPKEY para eliminar las observaciones que tienen el mismo valor para la variable especificada en la instrucción BY (aquí, 'id'), manteniendo la primera ocurrencia.

Análisis de datos

Type : CREATION_INTERNE

Los datos se crean directamente en el script SAS utilizando la instrucción 'cards;' dentro de un DATA STEP. El conjunto de datos 'amit' se genera en memoria.

1 Bloque de código

DATA STEP Data

Explicación :
Este bloque de código utiliza un DATA STEP para crear un conjunto de datos SAS llamado 'amit'. Se definen las variables 'id' (numérica), 'name' (cadena de caracteres) y 'amount' (numérica). Los datos se leen directamente del script a través de la instrucción 'cards;'.

¡Copiado!

1	DATA amit;
2	INPUT id name $ amount;
3	CARDS;
4	1 Amit 22
5	1 Amit 22
6	1 Amit 23
7	2 Amit 23
8	;
9	RUN;

2 Bloque de código

PROC SORT

Explicación :
Este bloque utiliza el procedimiento PROC SORT para ordenar el conjunto de datos 'amit'. La opción 'nodup' se especifica para eliminar las observaciones que son duplicados exactos en todas las variables de la observación. El conjunto de datos resultante, 'nodup', contiene las observaciones únicas. La ordenación se realiza por la variable 'id'.

¡Copiado!

1	PROC SORT DATA=amit nodup out=nodup;
2	BY id;
3	RUN;

3 Bloque de código

PROC SORT

Explicación :
Este bloque también utiliza el procedimiento PROC SORT. La opción 'nodupkey' se utiliza para eliminar las observaciones que tienen valores duplicados para la(s) variable(s) especificada(s) en la instrucción BY (aquí, 'id'). A diferencia de 'nodup', 'nodupkey' solo considera la clave de ordenación para la deduplicación. El conjunto de datos resultante es 'nodupkey'.

¡Copiado!

1
2	PROC SORT
3	DATA=amit nodupkey out=nodupkey;
4	BY id;
5	RUN;
6

Este material se proporciona "tal cual" por We Are Cas. No hay garantías, expresas o implícitas, en cuanto a la comerciabilidad o idoneidad para un propósito particular con respecto a los materiales o el código contenidos en este documento. We Are Cas no es responsable de los errores en este material tal como existe ahora o existirá, ni We Are Cas proporciona soporte técnico para el mismo.

Retour à la liste