Optimización del Data Step en SAS Viya: La Guía Experta

Con la arquitectura de SAS^© Viya^™, la ejecución del Data Step evoluciona de un procesamiento secuencial a un procesamiento masivamente paralelo dentro del servidor CAS (Cloud Analytic Services). Para aprovechar al máximo esta potencia, es necesario comprender el paradigma SPDM (Single Program, Multiple Data) y dominar ciertos parámetros de configuración.

1. El Paradigma de Ejecución: SPDM

A diferencia de Base SAS^© que ejecuta el código en un solo procesador, CAS utiliza el enfoque SPDM. El código Data Step se duplica y se envía simultáneamente a cada "Worker Node" y cada "Thread".

Para garantizar una ejecución en CAS (y no un costoso retorno al cliente SAS^©), dos condiciones son imperativas:

La opción DSACCEL=ANY debe estar activa (es el valor por defecto).
Todas las tablas (entrada y salida) deben residir en una biblioteca CAS (LIBNAME ... CAS).

Punto de atención: Si una sola tabla del procesamiento (por ejemplo, en una instrucción SET o MERGE) es local (ej: SASHELP.CARS o WORK.DATA), la totalidad del procesamiento se moverá al lado del cliente (SAS^© Workspace Server), anulando las ganancias de rendimiento del clúster.

2. La Palanca de Rendimiento: El parámetro `COPIES`

En un entorno distribuido, la gestión de la redundancia es crucial para la tolerancia a fallos, pero tiene un costo en términos de tráfico de red (Data Movement).

COPIES=1 (Comportamiento por defecto): CAS crea una copia de seguridad de los bloques de datos en un nodo vecino. Esto genera un tráfico inter-nodo importante durante la escritura.
COPIES=0: Los datos se escriben localmente en el nodo que los procesa, sin replicación inmediata.

Recomendación de experto: Para tablas intermedias (que no son resultados finales persistentes), fuerce sistemáticamente la opción COPIES=0. En grandes volúmenes (ej: 100 millones de líneas), esto puede dividir el tiempo de ejecución por 5 al eliminar el cuello de botella de la red.

1	/* Optimisation pour table temporaire */
2	DATA casuser.temp(copies=0);
3	SET casuser.SOURCE;
4	/* Traitements... */
5	RUN;

3. Gestión de la Memoria y la Caché de Disco (`MaxTableMem`)

El equilibrio entre la RAM (rápida) y el disco (lento) es el corazón del rendimiento en CAS. Aunque CAS es una tecnología "In-Memory", se basa en un mecanismo de caché de disco (CAS_DISK_CACHE) cuando la memoria RAM está saturada o para la persistencia temporal.

El parámetro MaxTableMem define el umbral de memoria a partir del cual CAS comienza a utilizar archivos mapeados en memoria (memory-mapped files) respaldados por el disco, en lugar de RAM pura.

Para profundizar en la mecánica interna de estas asignaciones, dos recursos de referencia son imprescindibles:

Comprender el almacenamiento de CAS: Para una visión detallada de la estructura de los bloques y la interacción entre memoria y disco, consulte el artículo de Nicolas Housset sobre la gestión de datos In-Memory en CAS. Allí detalla cómo CAS segmenta los datos para optimizar el acceso paralelo.
El papel de CAS_DISK_CACHE: Contrariamente a una idea errónea, la caché de disco no es solo un espacio de desbordamiento (swap). Juega un papel activo en la gestión de las tablas cargadas. El artículo técnico When is CAS_DISK_CACHE used? en la comunidad SAS^© explica precisamente los escenarios que desencadenan su uso (carga inicial, desbordamiento de memoria, conmutación por error).

Consejo técnico: Si su infraestructura de almacenamiento (que aloja el CAS_DISK_CACHE) es lenta (HDD vs SSD) o su red es limitada (1GbE), aumentar el valor de MaxTableMem puede forzar el uso de la RAM y reducir las E/S de disco, mejorando así significativamente el rendimiento.

4. Particularidades Funcionales en CAS

Instrucción RETAIN: Como los datos están particionados, la instrucción RETAIN solo funciona dentro de los límites de un hilo. Es imposible calcular una suma acumulativa global sobre toda la tabla en una sola pasada de Data Step simple.
Tipos de datos: CAS introduce el tipo VARCHAR (longitud variable), más eficiente en memoria que el CHAR (longitud fija) tradicional para cadenas largas.
Instrucción BY: El procesamiento por grupo requiere que los datos estén correctamente particionados en los nodos de antemano (a través de partition= o groupby=), de lo contrario, la ordenación implícita puede ser costosa.

Resumen de Buenas Prácticas

Cargar todo en CAS antes de iniciar el Data Step (PROC CASUTIL).
Usar COPIES=0 para todas las tablas intermedias.
Supervisar el uso de CAS_DISK_CACHE y ajustar MaxTableMem si las E/S de disco ralentizan el procesamiento (ver enlaces anteriores).
Adaptar la lógica de programación (totales, agregaciones) al modo multithread.

Aviso importante

Los códigos y ejemplos proporcionados en WeAreCAS.eu son con fines educativos. Es imperativo no copiarlos y pegarlos ciegamente en sus entornos de producción. El mejor enfoque es comprender la lógica antes de aplicarla. Recomendamos encarecidamente probar estos scripts en un entorno de prueba (Sandbox/Dev). WeAreCAS no acepta ninguna responsabilidad por cualquier impacto o pérdida de datos en sus sistemas.

Volver a la lista de artículos