Data Step

Comment agréger et sommer des données par groupe

Simon 20 views
Niveau de difficulté
Débutant
Published on :
Michael

Expert Advice

Michael

Si la PROC SQL est souvent le réflexe naturel pour agréger des données, ne sous-estimez pas la puissance de la PROC REPORT pour la préparation de tables. En utilisant l'option OUT=, vous faites d'une pierre deux coups : vous validez visuellement vos totaux dans le rapport tout en générant votre table de sortie, ce qui sécurise vos développements avant la mise en production.

Dans le traitement de données au quotidien, il est très fréquent de devoir passer d'un niveau de détail "transactionnel" (plusieurs lignes par client) à un niveau "synthétique" (une ligne par client avec un total).

1. Le Problème : Sommer des balances par client

L'utilisateur dispose d'un jeu de données contenant des numéros de clients, des dates et des montants (balances). Un même client (Cust_1) apparaît plusieurs fois à des dates différentes.


ClientMontantDate
Cust_1100.0001/01/2008
Cust_1150.0010/01/2008
Cust_1125.0011/01/2008

Objectif : Créer une nouvelle table contenant la somme des montants pour chaque client.

  • Résultat attendu pour Cust_1 : 375.00

Note :
Dans la discussion originale, une solution efficace utilisant PROC REPORT a été fournie. Bien que souvent utilisée pour l'affichage (impression), cette procédure est très puissante pour générer des tables de sortie.
1PROC REPORT DATA=cust nowd out=temp;
2 column cust_no bal;
3 define cust_no / group noprint;
4 define bal / analysis sum noprint;
5RUN;
Analyse du code :
out=temp : C'est l'option clé. Elle indique à SAS© de ne pas simplement afficher le rapport, mais d'enregistrer le résultat dans une table nommée temp.

column cust_no bal : Sélectionne les colonnes à utiliser.

define cust_no / group : Indique que la variable cust_no est la clé de regroupement (comme un "GROUP BY" en SQL).

define bal / analysis sum : Indique que la variable bal doit être analysée et sommée.
Note :
PROC SQL (Pour les habitués du SQL)
C'est souvent la méthode la plus intuitive si vous venez du monde des bases de données relationnelles.
1PROC SQL;
2 create TABLE temp_sql as
3 select cust_no, sum(bal) as Total_Balance
4 from cust
5 group BY cust_no;
6QUIT;
Note : L'instruction nway est importante pour ne garder que le niveau de synthèse le plus élevé (par client) et éviter les totaux globaux.

Pour résumer des données dans SAS© :

  1. Utilisez PROC REPORT si vous avez besoin de flexibilité et que vous construisez déjà un rapport.

  2. Utilisez PROC SQL si vous préférez la syntaxe standard SQL.

  3. Utilisez PROC MEANS si la performance sur de très gros volumes est votre priorité.

Le conseil de l'expert : Comme le souligne Cynthia, n'hésitez pas à consulter la documentation SAS© pour les instructions OUTPUT (pour PROC MEANS) ou l'option OUT= (pour TABULATE et REPORT). C'est souvent là que se trouve la clé pour transformer un rapport visuel en table de données.