Optimisation du stockage CAS : Maîtriser le format DVR lors du chargement de données
Simon 40 vues
Niveau de difficulté
Débutant
Publié le :
Le conseil de l'expert
Michael
En architecture In-Memory, l'économie de RAM doit se jouer dès l'ingestion : ne chargez jamais une table pour la compresser ensuite. Privilégiez systématiquement l'instruction UPLOAD de la PROC CAS qui applique le format DVR et la conversion VARCHAR à la volée (in-flight). C'est la seule méthode capable de diviser votre empreinte mémoire par deux sans doubler vos opérations d'entrée/sortie.
/* Méthode standard - ne permet pas l'optimisation DVR directe */
proc casutil;
load data=maTableWork casout="maTableCAS";
quit;
1
/* Méthode standard - ne permet pas l'optimisation DVR directe */
2
PROC CASUTIL;
3
load DATA=maTableWork casout="maTableCAS";
4
QUIT;
Le problème réside dans le fait que l'instruction LOAD DATA de PROC CASUTIL ne propose pas d'option native pour définir le deafaultmemoryFormat. Par conséquent, la table est chargée avec le format par défaut, consommant plus de mémoire que nécessaire.
La fausse bonne idée : Le chargement en deux étapes
Face à cette limitation, une solution de contournement souvent tentée consiste à :
Charger la table normalement (format standard).
Utiliser l'action table.copyTable pour créer une copie compressée en DVR.
Supprimer la table originale.
Bien que fonctionnelle, cette méthode est inefficace ("clunky"). Elle double temporairement l'utilisation de la mémoire et augmente les entrées/sorties inutilement.
La Solution Optimale : L'instruction UPLOAD dans PROC CAS
L'instruction UPLOAD permet non seulement de transférer le fichier, mais offre également un contrôle granulaire sur les paramètres de sortie (casout) et les options d'importation.
Avantages de cette méthode
Directe : Pas besoin de table temporaire.
Compression DVR : Application immédiate de la réduction des doublons.
Conversion VARCHAR : Possibilité de convertir les chaînes de caractères fixes en VARCHAR à la volée, offrant une réduction supplémentaire de l'espace mémoire.
Note : Exemple de code
Voici comment charger une table située dans la bibliothèque WORK directement en format DVR :
proc cas;
/* Nettoyage préalable si nécessaire */
action table.droptable / name="somedata" quiet=true;
/* Chargement optimisé */
upload /
/* Récupération dynamique du chemin physique de la table SAS */
path="%sysfunc(pathname(work))/somedata.sas7bdat"
/* Configuration de la table de sortie CAS */
casout={
caslib="casuser"
name="somedata"
promote=true, /* Rendre la table globale */
memoryformat="DVR", /* Activation de la compression DVR */
replication=0 /* Ajuster la réplication selon les besoins */
}
/* Options d'importation supplémentaires */
importoptions={
filetype="BASESAS",
varcharConversion=17 /* Convertit les CHAR > 16 octets en VARCHAR */
}
;
quit;
L'option varcharConversion est un complément idéal au DVR. Alors que le DVR compresse les valeurs répétées, le passage au type VARCHAR réduit l'espace alloué aux chaînes de caractères de longueur variable, maximisant ainsi l'efficacité du stockage.
Les codes et exemples fournis sur WeAreCAS.eu sont à but pédagogique. Il est impératif de ne pas les copier-coller aveuglément sur vos environnements de production. La meilleure approche consiste à comprendre la logique avant de l'appliquer. Nous vous recommandons vivement de tester ces scripts dans un environnement de test (Sandbox/Dev). WeAreCAS décline toute responsabilité quant aux éventuels impacts ou pertes de données sur vos systèmes.
SAS et tous les autres noms de produits ou de services de SAS Institute Inc. sont des marques déposées ou des marques de commerce de SAS Institute Inc. aux États-Unis et dans d'autres pays. ® indique un enregistrement aux États-Unis. WeAreCAS est un site communautaire indépendant et n'est pas affilié à SAS Institute Inc.
Ce site utilise des cookies techniques et analytiques pour améliorer votre expérience.
En savoir plus.