Nota: Las siguientes pruebas se realizaron en un conjunto de datos de 160 millones de filas, alojado en una modesta arquitectura virtual (5 nodos).
Note : 1. Agregación (Group By): Baja Cardinalidad
Cuando necesita sumar variables según algunos grupos (ej: Tipo de instalación y Línea de producto), el reflejo es usar PROC MEANS o PROC SUMMARY. En CAS, el equivalente optimizado es la acción simple.summary.
Ganancia: CAS es aproximadamente 20 veces más rápido.
2. Agregación: Alta Cardinalidad
Una crítica común (y a menudo anticuada) sugiere que los motores en memoria sufren cuando el número de grupos explota. Verifiquemos esto aumentando la complejidad.
La Prueba:
Datos: 160 millones de filas.
Grupos: 88.000 combinaciones únicas (ID de producto, fecha, unidad).
El salto a CAS requiere un esfuerzo de aprendizaje, especialmente para dominar el lenguaje CASL y las CAS Actions. Sin embargo, para cualquiera que procese grandes volúmenes de datos (Big Data), el retorno de la inversión en términos de tiempo de procesamiento es inmediato y espectacular.
Aviso importante
Los códigos y ejemplos proporcionados en WeAreCAS.eu son con fines educativos. Es imperativo no copiarlos y pegarlos ciegamente en sus entornos de producción. El mejor enfoque es comprender la lógica antes de aplicarla. Recomendamos encarecidamente probar estos scripts en un entorno de prueba (Sandbox/Dev). WeAreCAS no acepta ninguna responsabilidad por cualquier impacto o pérdida de datos en sus sistemas.
SAS y todos los demás nombres de productos o servicios de SAS Institute Inc. son marcas registradas o marcas comerciales de SAS Institute Inc. en los EE. UU. y otros países. ® indica registro en los EE. UU. WeAreCAS es un sitio comunitario independiente y no está afiliado a SAS Institute Inc.
Este sitio utiliza cookies técnicas y analíticas para mejorar su experiencia.
Saber más.