SAS et SQL : Comment répliquer OVER PARTITION BY dans SAS

Pour les analystes de données venant du monde SQL standard (Oracle, SQL Server, PostgreSQL), l'une des premières frustrations dans SAS^© est l'absence apparente de support pour les fonctions de fenêtrage (Window Functions).

Des syntaxes courantes comme ROW_NUMBER() OVER (PARTITION BY id ORDER BY date) ou SUM(val) OVER (PARTITION BY group) provoquent des erreurs de syntaxe immédiates dans la PROC SQL de SAS^©.

Cet article explique pourquoi cette limitation existe et, surtout, comment la contourner efficacement en utilisant la puissance native du langage SAS^©.

Le constat : PROC SQL et la norme ANSI

La procédure standard PROC SQL de SAS^© est basée sur une version ancienne de la norme ANSI (principalement ANSI 92). Les fonctions de fenêtrage (introduites plus tardivement dans la norme SQL:2003) ne sont pas supportées par le moteur SQL natif de SAS^© Base.

Il est inutile de chercher une option cachée : PROC SQL ne comprendra pas la clause OVER. Cependant, SAS^© offre plusieurs alternatives souvent plus performantes pour obtenir le même résultat.

Alternative 1 : L'approche native SAS^© (DATA Step)

C'est la méthode la plus "SAS^©". Au lieu de penser en termes de requêtes ensemblistes, on utilise le traitement séquentiel du DATA Step combiné à des groupes (BY groups). C'est l'équivalent direct du PARTITION BY.

La logique de correspondance

SQL : PARTITION BY variable
SAS^© : BY variable (nécessite un tri préalable)
SQL : ORDER BY date
SAS^© : PROC SORT par date

Exemple : Répliquer un ROW_NUMBER()

Imaginons que nous voulons numéroter des lignes pour chaque client, triées par date.

En SQL standard :

1	SELECT customer_id,
2	ROW_NUMBER() OVER (PARTITION BY customer_id ORDER BY trans_date) as row_num
3	FROM transactions;
4

En SAS^© (DATA Step) : Cette méthode utilise les variables automatiques FIRST. pour détecter le changement de groupe.

1	/* 1. Le tri est obligatoire pour utiliser BY */
2	PROC SORT DATA=transactions;
3	BY customer_id trans_date;
4	RUN;
5
6	/* 2. Le Data Step */
7	DATA want;
8	SET transactions;
9	BY customer_id;
10
11	/* Si c'est la première ligne du client, on remet le compteur à 1 */
12	IF first.customer_id THEN row_num = 1;
13	/* Sinon, on incrémente */
14	ELSE row_num + 1;
15	RUN;

Exemple : Répliquer un Cumulative SUM

En SQL standard : SUM(amount) OVER (PARTITION BY customer_id ORDER BY date)

En SAS^© (DATA Step) :

1	DATA want;
2	SET transactions;
3	BY customer_id;
4
5	/* RETAIN garde la valeur de la ligne précédente */
6	retain running_total;
7
8	IF first.customer_id THEN running_total = amount;
9	ELSE running_total = running_total + amount;
10	RUN;

Alternative 2 : Le SQL Pass-Through (Délégation)

Si vos données résident déjà dans une base de données puissante (Oracle, SQL Server, Teradata) et que vous utilisez SAS^©/ACCESS, il est souvent plus efficace de laisser la base de données faire le travail.

Cette technique, appelée Explicit Pass-Through, envoie votre code SQL natif directement au serveur de base de données. SAS^© ne l'interprète pas, il ne fait que recevoir le résultat.

1	PROC SQL;
2	connect to oracle (user=... pass=... path=...);
3
4	create TABLE want as
5	select * from connection to oracle
6	(
7	/* Ici, vous pouvez utiliser toute la syntaxe Oracle,
8	y compris les fonctions de fenêtrage */
9	SELECT
10	customer_id,
11	trans_date,
12	RANK() OVER (PARTITION BY customer_id ORDER BY trans_date DESC) as rang
13	FROM
14	schema.transactions
15	);
16
17	disconnect from oracle;
18	QUIT;

Avantage : Vous utilisez la syntaxe SQL que vous connaissez déjà et profitez de la puissance du serveur SGBD.

Alternative 3 : Les Procédures Spécifiques

Pour certaines fonctions de fenêtrage courantes comme RANK ou les déciles (NTILE), SAS^© dispose de procédures dédiées optimisées qui évitent d'écrire du code complexe.

Pour remplacer RANK() OVER (PARTITION BY ...) :

1	PROC RANK DATA=transactions out=want descending;
2	BY customer_id; /* Équivalent du PARTITION BY */
3	var amount; /* La variable sur laquelle on classe */
4	ranks my_rank; /* Le nom de la nouvelle colonne */
5	RUN;

Quid de PROC FEDSQL ?

SAS^© a introduit une procédure plus moderne appelée PROC FEDSQL, qui vise une conformité ANSI SQL plus stricte (SQL:1999 et au-delà). Bien que FedSQL soit beaucoup plus avancé que PROC SQL, le support complet des fonctions de fenêtrage dépend fortement de l'environnement (SAS^© 9 vs SAS^© Viya^™/CAS) et reste parfois limité par rapport aux bases de données natives. Il est recommandé de vérifier la documentation spécifique à votre version de SAS^©, mais pour des besoins de fenêtrage classiques, le Data Step reste souvent la voie royale en termes de performance locale.

Besoin SQL	Solution SAS^© Recommandée
Données locales (SAS^© datasets)	Utilisez le DATA Step avec `BY`, `FIRST.`, `LAST.` et `RETAIN`. C'est rapide et flexible.
Données dans une DB (Oracle, etc.)	Utilisez le SQL Pass-Through (`CONNECT TO`) pour exécuter le SQL natif.
Calcul de Rangs / Percentiles	Utilisez PROC RANK ou PROC UNIVARIATE.
Requêtes simples	Restez sur PROC SQL standard (sans window functions).

Avertissement important

Les codes et exemples fournis sur WeAreCAS.eu sont à but pédagogique. Il est impératif de ne pas les copier-coller aveuglément sur vos environnements de production. La meilleure approche consiste à comprendre la logique avant de l'appliquer. Nous vous recommandons vivement de tester ces scripts dans un environnement de test (Sandbox/Dev). WeAreCAS décline toute responsabilité quant aux éventuels impacts ou pertes de données sur vos systèmes.

Retour à la liste des articles

SAS et SQL : Comment répliquer OVER PARTITION BY dans SAS

Niveau de difficulté

Publié le : 23/07/2022

Le conseil de l'expert

Le constat : PROC SQL et la norme ANSI

Alternative 1 : L'approche native SAS^© (DATA Step)

La logique de correspondance

Exemple : Répliquer un ROW_NUMBER()

Exemple : Répliquer un Cumulative SUM

Alternative 2 : Le SQL Pass-Through (Délégation)

Alternative 3 : Les Procédures Spécifiques

Quid de PROC FEDSQL ?

Avertissement important

Niveau de difficulté

Publié le : 23/07/2022

Le conseil de l'expert

Le constat : PROC SQL et la norme ANSI

Alternative 1 : L'approche native SAS© (DATA Step)

La logique de correspondance

Exemple : Répliquer un ROW_NUMBER()

Exemple : Répliquer un Cumulative SUM

Alternative 2 : Le SQL Pass-Through (Délégation)

Alternative 3 : Les Procédures Spécifiques

Quid de PROC FEDSQL ?

Avertissement important

Alternative 1 : L'approche native SAS^© (DATA Step)