table addCaslib

Scénario Volumétrie : Accès à un Data Lake avec Structure de Sous-Répertoires

Scénario de test & Cas d'usage

Contexte Métier

Une institution financière stocke ses données de risque dans une arborescence de répertoires par année et par trimestre. Un data scientist a besoin d'un accès unifié et persistant à l'ensemble de ces données via une seule caslib pour mener des études de risque transversales.
À propos du Set : table

Chargement, sauvegarde et gestion des tables en mémoire.

Découvrir toutes les actions de table
Préparation des Données

Création d'une arborescence de répertoires simulée (/tmp/risk_datalake/) et de plusieurs fichiers CSV répartis dans les sous-répertoires.

Copié !
1filename risk22 '/tmp/risk_datalake/2022/Q4/risk_q4_22.csv';
2filename risk23 '/tmp/risk_datalake/2023/Q1/risk_q1_23.csv';
3DATA _null_;
4 file risk22 dsd dlm=',' lrecl=256;
5 put 'RiskType,Exposure,Date';
6 put 'Credit,1200000,2022-10-15';
7 put 'Market,750000,2022-11-20';
8 file risk23 dsd dlm=',' lrecl=256;
9 put 'RiskType,Exposure,Date';
10 put 'Credit,1350000,2023-01-25';
11 put 'Operational,50000,2023-02-10';
12RUN;

Étapes de réalisation

1
Ajout d'une caslib persistante pointant à la racine du data lake et activant l'exploration des sous-répertoires.
Copié !
1 
2PROC CAS;
3TABLE.addCaslib / name='RISK_LAKE' path='/tmp/risk_datalake/' dataSource={srcType='PATH'} subDirectories=TRUE
4SESSION=FALSE description='Caslib persistante pour le
5Data Lake de Risque';
6 
7RUN;
8 
2
Vérification que la caslib a été créée et est persistante (visible dans les informations globales).
Copié !
1 
2PROC CAS;
3TABLE.caslibInfo / caslib='RISK_LAKE';
4 
5RUN;
6 
3
Utilisation de l'action 'fileInfo' pour lister tous les fichiers accessibles via la caslib, prouvant que les sous-répertoires sont bien explorés.
Copié !
1 
2PROC CAS;
3TABLE.fileInfo / caslib='RISK_LAKE';
4 
5RUN;
6 
4
Chargement d'un fichier spécifique depuis un sous-répertoire pour confirmer l'accès.
Copié !
1 
2PROC CAS;
3TABLE.loadTable / caslib='RISK_LAKE' path='2023/Q1/risk_q1_23.csv' casOut={name='risk_2023_q1', caslib='casuser', replace=TRUE};
4 
5RUN;
6 

Résultat Attendu


Une caslib persistante nommée 'RISK_LAKE' est créée. L'action 'fileInfo' retourne la liste des deux fichiers CSV situés dans des sous-répertoires différents. Le chargement d'un fichier en spécifiant son chemin relatif depuis la racine de la caslib réussit, validant l'accès unifié à l'ensemble de l'arborescence de données.