Data Step

¿Cómo extraer eficientemente las últimas observaciones de una tabla?

Simon 11 Aufrufe

Al explorar datos o depurar, es frecuente querer aislar únicamente el "final" de una tabla (dataset). A diferencia de la opción OBS=10 que nos da el inicio, recuperar las 10 últimas observaciones de una tabla que contiene $N$ líneas requiere un enfoque más reflexivo, especialmente si la tabla es voluminosa.

Aquí hay una compilación de los mejores métodos de la comunidad SAS©, clasificados por rendimiento y casos de uso.

Note :
El enfoque ingenuo (Orden descendente)
La primera idea que suele venir a la mente es ordenar la tabla en orden cronológico inverso y tomar las primeras líneas.
1PROC SORT DATA=MA_TABLE out=sorted_table;
2 BY descending date_variable;
3RUN;
4 
5DATA last_ten;
6 SET sorted_table (obs=10);
7RUN;
Veredicto: Evitar en tablas grandes.

¿Por qué? Ordenar una tabla de millones de líneas consume una enorme cantidad de recursos de CPU y E/S simplemente para leer 10 líneas. Es ineficiente.
Note :
El enfoque aritmético (NOBS e IF)
Un método mucho más limpio consiste en usar la opción NOBS en la instrucción SET. Esta opción almacena el número total de observaciones en una variable temporal durante la compilación, sin tener que leer la tabla.
1DATA last_ten;
2 SET MA_TABLE nobs=total_obs;
3 /* On ne garde que si le numéro de ligne (_N_) est dans les 10 derniers */
4 IF _N_ > (total_obs - 10);
5RUN;
Veredicto: Bueno para tablas de tamaño mediano.

¿Por qué? Aunque solo guardemos 10 líneas, SAS© aún tiene que leer secuencialmente toda la tabla hasta el final para probar la condición IF. En una tabla de mil millones de líneas, esto será lento.
Note :
El enfoque de alto rendimiento (Acceso Directo con POINT=)
Esta es la solución óptima recomendada por los expertos. El objetivo es usar el acceso aleatorio (Direct Access) para saltar directamente al final del archivo sin leer el principio.

Se combinan NOBS (para conocer el final) y POINT (para ir a una línea específica).
1DATA last_ten;
2 /* Boucle de la ligne N-9 jusqu'à la ligne N */
3 DO i = (total_obs - 9) to total_obs;
4 SET MA_TABLE nobs=total_obs point=i;
5 OUTPUT;
6 END;
7 stop; /* IMPORTANT : stop évite une boucle infinie avec l'instruction POINT */
8RUN;
Veredicto: El mejor rendimiento.

¿Por qué? SAS© solo lee 10 líneas, incluso si la tabla contiene 100 millones. La ejecución es casi instantánea.

Nota técnica: La instrucción STOP es obligatoria porque la instrucción SET con POINT= nunca encuentra un marcador de fin de archivo (End-of-File).
Note :
El enfoque Macro (FIRSTOBS dinámico)
Una alternativa interesante es calcular el punto de partida en un paso anterior y luego usar la opción FIRSTOBS.
1/* Étape 1 : Calculer le point de départ */
2DATA _null_;
3 SET MA_TABLE nobs=n;
4 start_point = n - 9;
5 call symput('start_obs', start_point);
6RUN;
7 
8/* Étape 2 : Lire à partir de ce point */
9DATA last_ten;
10 SET MA_TABLE (firstobs=&start_obs);
11RUN;
Veredicto: Funcional pero verboso. El método 3 sigue siendo superior porque se puede realizar en un solo paso Data.

Puntos de atención y Limitaciones

Para concluir, aquí hay algunos matices técnicos planteados durante la discusión :

  1. Vistas y SGBD: Los métodos que utilizan NOBS y POINT= funcionan perfectamente en tablas nativas de Base SAS©. Sin embargo, pueden fallar en Vistas (Views) o tablas de bases de datos externas (Oracle, SQL Server a través de SAS©/ACCESS) porque estos motores no siempre conocen el número de líneas de antemano o no admiten el acceso directo por número de línea.

  2. La variable _N_: En el método 3, puedes usar la variable automática _N_ como contador de bucle (en lugar de i).

    • Ventaja: _N_ no se escribe en la tabla de salida (no se necesita DROP).

    • Inconveniente: Esto puede generar confusión para los principiantes, ya que _N_ generalmente se refiere al número de iteraciones del paso Data.

En resumen: Para una tabla SAS© clásica voluminosa, siempre prioriza el Método 3 (POINT=).