Note : Les tests suivants ont été réalisés sur un jeu de données de 160 millions de lignes, hébergé sur une architecture virtuelle modeste (5 nœuds).
Note :
1. L'Agrégation (Group By) : Faible Cardinalité
Lorsque vous devez sommer des variables selon quelques groupes (ex: Type d'installation et Ligne de produit), le réflexe est d'utiliser PROC MEANS ou PROC SUMMARY. En CAS, l'équivalent optimisé est l'action simple.summary.
Une critique courante (et souvent datée) suggère que les moteurs in-memory peinent lorsque le nombre de groupes explose. Vérifions cela en augmentant la complexité.
Le Test :
Données : 160 millions de lignes.
Groupes : 88 000 combinaisons uniques (ID produit, date, unité).
Le saut vers CAS demande un effort d'apprentissage, notamment pour maîtriser le langage CASL et les CAS Actions. Cependant, pour quiconque traite des volumes de données importants (Big Data), le retour sur investissement en termes de temps de traitement est immédiat et spectaculaire.
Avertissement important
Les codes et exemples fournis sur WeAreCAS.eu sont à but pédagogique. Il est impératif de ne pas les copier-coller aveuglément sur vos environnements de production. La meilleure approche consiste à comprendre la logique avant de l'appliquer. Nous vous recommandons vivement de tester ces scripts dans un environnement de test (Sandbox/Dev). WeAreCAS décline toute responsabilité quant aux éventuels impacts ou pertes de données sur vos systèmes.
SAS et tous les autres noms de produits ou de services de SAS Institute Inc. sont des marques déposées ou des marques de commerce de SAS Institute Inc. aux États-Unis et dans d'autres pays. ® indique un enregistrement aux États-Unis. WeAreCAS est un site communautaire indépendant et n'est pas affilié à SAS Institute Inc.
Ce site utilise des cookies techniques et analytiques pour améliorer votre expérience.
En savoir plus.