Nota: Las siguientes pruebas se realizaron en un conjunto de datos de 160 millones de filas, alojado en una modesta arquitectura virtual (5 nodos).
Note :
1. Agregación (Group By): Baja Cardinalidad
Cuando necesita sumar variables según algunos grupos (ej: Tipo de instalación y Línea de producto), el reflejo es usar PROC MEANS o PROC SUMMARY. En CAS, el equivalente optimizado es la acción simple.summary.
Ganancia: CAS es aproximadamente 20 veces más rápido.
2. Agregación: Alta Cardinalidad
Una crítica común (y a menudo anticuada) sugiere que los motores en memoria sufren cuando el número de grupos explota. Verifiquemos esto aumentando la complejidad.
La Prueba:
Datos: 160 millones de filas.
Grupos: 88.000 combinaciones únicas (ID de producto, fecha, unidad).
El salto a CAS requiere un esfuerzo de aprendizaje, especialmente para dominar el lenguaje CASL y las CAS Actions. Sin embargo, para cualquiera que procese grandes volúmenes de datos (Big Data), el retorno de la inversión en términos de tiempo de procesamiento es inmediato y espectacular.
Avertissement important
Les codes et exemples fournis sur WeAreCAS.eu sont à but pédagogique. Il est impératif de ne pas les copier-coller aveuglément sur vos environnements de production. La meilleure approche consiste à comprendre la logique avant de l'appliquer. Nous vous recommandons vivement de tester ces scripts dans un environnement de test (Sandbox/Dev). WeAreCAS décline toute responsabilité quant aux éventuels impacts ou pertes de données sur vos systèmes.
SAS et tous les autres noms de produits ou de services de SAS Institute Inc. sont des marques déposées ou des marques de commerce de SAS Institute Inc. aux États-Unis et dans d'autres pays. ® indique un enregistrement aux États-Unis. WeAreCAS est un site communautaire indépendant et n'est pas affilié à SAS Institute Inc.
Ce site utilise des cookies techniques et analytiques pour améliorer votre expérience.
En savoir plus.