Nota: Las siguientes pruebas se realizaron en un conjunto de datos de 160 millones de filas, alojado en una modesta arquitectura virtual (5 nodos).
Note : 1. Agregación (Group By): Baja Cardinalidad
Cuando necesita sumar variables según algunos grupos (ej: Tipo de instalación y Línea de producto), el reflejo es usar PROC MEANS o PROC SUMMARY. En CAS, el equivalente optimizado es la acción simple.summary.
Ganancia: CAS es aproximadamente 20 veces más rápido.
2. Agregación: Alta Cardinalidad
Una crítica común (y a menudo anticuada) sugiere que los motores en memoria sufren cuando el número de grupos explota. Verifiquemos esto aumentando la complejidad.
La Prueba:
Datos: 160 millones de filas.
Grupos: 88.000 combinaciones únicas (ID de producto, fecha, unidad).
El salto a CAS requiere un esfuerzo de aprendizaje, especialmente para dominar el lenguaje CASL y las CAS Actions. Sin embargo, para cualquiera que procese grandes volúmenes de datos (Big Data), el retorno de la inversión en términos de tiempo de procesamiento es inmediato y espectacular.
Wichtiger Haftungsausschluss
Die auf WeAreCAS.eu bereitgestellten Codes und Beispiele dienen Lehrzwecken. Es ist zwingend erforderlich, sie nicht blind in Ihre Produktionsumgebungen zu kopieren. Der beste Ansatz besteht darin, die Logik zu verstehen, bevor sie angewendet wird. Wir empfehlen dringend, diese Skripte in einer Testumgebung (Sandbox/Dev) zu testen. WeAreCAS übernimmt keine Verantwortung für mögliche Auswirkungen oder Datenverluste auf Ihren Systemen.
SAS und alle anderen Produkt- oder Dienstleistungsnamen von SAS Institute Inc. sind eingetragene Marken oder Marken von SAS Institute Inc. in den USA und anderen Ländern. ® zeigt die Registrierung in den USA an. WeAreCAS ist eine unabhängige Community-Site und nicht mit SAS Institute Inc. verbunden.
Diese Website verwendet technische und analytische Cookies, um Ihre Erfahrung zu verbessern.
Mehr erfahren.