Nota: Las siguientes pruebas se realizaron en un conjunto de datos de 160 millones de filas, alojado en una modesta arquitectura virtual (5 nodos).
Note : 1. Agregación (Group By): Baja Cardinalidad
Cuando necesita sumar variables según algunos grupos (ej: Tipo de instalación y Línea de producto), el reflejo es usar PROC MEANS o PROC SUMMARY. En CAS, el equivalente optimizado es la acción simple.summary.
Ganancia: CAS es aproximadamente 20 veces más rápido.
2. Agregación: Alta Cardinalidad
Una crítica común (y a menudo anticuada) sugiere que los motores en memoria sufren cuando el número de grupos explota. Verifiquemos esto aumentando la complejidad.
La Prueba:
Datos: 160 millones de filas.
Grupos: 88.000 combinaciones únicas (ID de producto, fecha, unidad).
El salto a CAS requiere un esfuerzo de aprendizaje, especialmente para dominar el lenguaje CASL y las CAS Actions. Sin embargo, para cualquiera que procese grandes volúmenes de datos (Big Data), el retorno de la inversión en términos de tiempo de procesamiento es inmediato y espectacular.
Important Disclaimer
The codes and examples provided on WeAreCAS.eu are for educational purposes. It is imperative not to blindly copy-paste them into your production environments. The best approach is to understand the logic before applying it. We strongly recommend testing these scripts in a test environment (Sandbox/Dev). WeAreCAS accepts no responsibility for any impact or data loss on your systems.
SAS and all other SAS Institute Inc. product or service names are registered trademarks or trademarks of SAS Institute Inc. in the USA and other countries. ® indicates USA registration. WeAreCAS is an independent community site and is not affiliated with SAS Institute Inc.
This site uses technical and analytical cookies to improve your experience.
Read more.