Al explorar datos o depurar, es frecuente querer aislar únicamente el "final" de una tabla (dataset). A diferencia de la opción OBS=10 que nos da el inicio, recuperar las 10 últimas observaciones de una tabla que contiene $N$ líneas requiere un enfoque más reflexivo, especialmente si la tabla es voluminosa.
Note : El enfoque ingenuo (Orden descendente)
La primera idea que suele venir a la mente es ordenar la tabla en orden cronológico inverso y tomar las primeras líneas.
proc sort data=MA_TABLE out=sorted_table;
by descending date_variable;
run;
data last_ten;
set sorted_table (obs=10);
run;
1
PROC SORTDATA=MA_TABLE out=sorted_table;
2
BY descending date_variable;
3
RUN;
4
5
DATA last_ten;
6
SET sorted_table (obs=10);
7
RUN;
Veredicto: Evitar en tablas grandes.
¿Por qué? Ordenar una tabla de millones de líneas consume una enorme cantidad de recursos de CPU y E/S simplemente para leer 10 líneas. Es ineficiente.
Note : El enfoque aritmético (NOBS e IF)
Un método mucho más limpio consiste en usar la opción NOBS en la instrucción SET. Esta opción almacena el número total de observaciones en una variable temporal durante la compilación, sin tener que leer la tabla.
data last_ten;
set MA_TABLE nobs=total_obs;
/* On ne garde que si le numéro de ligne (_N_) est dans les 10 derniers */
if _N_ > (total_obs - 10);
run;
1
DATA last_ten;
2
SET MA_TABLE nobs=total_obs;
3
/* On ne garde que si le numéro de ligne (_N_) est dans les 10 derniers */
Note : El enfoque de alto rendimiento (Acceso Directo con POINT=)
Esta es la solución óptima recomendada por los expertos. El objetivo es usar el acceso aleatorio (Direct Access) para saltar directamente al final del archivo sin leer el principio.
Se combinan NOBS (para conocer el final) y POINT (para ir a una línea específica).
data last_ten;
/* Boucle de la ligne N-9 jusqu'à la ligne N */
do i = (total_obs - 9) to total_obs;
set MA_TABLE nobs=total_obs point=i;
output;
end;
stop; /* IMPORTANT : stop évite une boucle infinie avec l'instruction POINT */
run;
1
DATA last_ten;
2
/* Boucle de la ligne N-9 jusqu'à la ligne N */
3
DO i = (total_obs - 9) to total_obs;
4
SET MA_TABLE nobs=total_obs point=i;
5
OUTPUT;
6
END;
7
stop; /* IMPORTANT : stop évite une boucle infinie avec l'instruction POINT */
Nota técnica: La instrucción STOP es obligatoria porque la instrucción SET con POINT= nunca encuentra un marcador de fin de archivo (End-of-File).
Note : El enfoque Macro (FIRSTOBS dinámico)
Una alternativa interesante es calcular el punto de partida en un paso anterior y luego usar la opción FIRSTOBS.
/* Étape 1 : Calculer le point de départ */
data _null_;
set MA_TABLE nobs=n;
start_point = n - 9;
call symput('start_obs', start_point);
run;
/* Étape 2 : Lire à partir de ce point */
data last_ten;
set MA_TABLE (firstobs=&start_obs);
run;
1
/* Étape 1 : Calculer le point de départ */
2
DATA _null_;
3
SET MA_TABLE nobs=n;
4
start_point = n - 9;
5
call symput('start_obs', start_point);
6
RUN;
7
8
/* Étape 2 : Lire à partir de ce point */
9
DATA last_ten;
10
SET MA_TABLE (firstobs=&start_obs);
11
RUN;
Veredicto: Funcional pero verboso. El método 3 sigue siendo superior porque se puede realizar en un solo paso Data.
Puntos de atención y Limitaciones
Para concluir, aquí hay algunos matices técnicos planteados durante la discusión :
Les codes et exemples fournis sur WeAreCAS.eu sont à but pédagogique. Il est impératif de ne pas les copier-coller aveuglément sur vos environnements de production. La meilleure approche consiste à comprendre la logique avant de l'appliquer. Nous vous recommandons vivement de tester ces scripts dans un environnement de test (Sandbox/Dev). WeAreCAS décline toute responsabilité quant aux éventuels impacts ou pertes de données sur vos systèmes.
SAS et tous les autres noms de produits ou de services de SAS Institute Inc. sont des marques déposées ou des marques de commerce de SAS Institute Inc. aux États-Unis et dans d'autres pays. ® indique un enregistrement aux États-Unis. WeAreCAS est un site communautaire indépendant et n'est pas affilié à SAS Institute Inc.
Ce site utilise des cookies techniques et analytiques pour améliorer votre expérience.
En savoir plus.