Publié le :
ETL CREATION_INTERNE

Exemples : Combiner des données en un à un

Ce code est également disponible en : Deutsch English Español
En attente de validation
Cette fonctionnalité combine des observations de deux ou plusieurs jeux de données en les associant positionnellement. L'instruction SET lit une observation de chaque jeu de données listé à chaque itération du DATA step. Les variables communes aux jeux de données sont écrasées par les valeurs du jeu de données spécifié en dernier dans l'instruction SET. Le processus s'arrête une fois que le jeu de données contenant le moins d'observations a été entièrement lu, ce qui détermine le nombre final d'observations dans le jeu de données résultant. Cette méthode ne repose pas sur une variable clé pour l'appariement et peut produire des résultats inattendus si les jeux de données ont des variables communes avec des valeurs non synchronisées.
Analyse des données

Type : CREATION_INTERNE


Les exemples utilisent des données générées (datalines) ou SASHELP. Les jeux de données 'animal' et 'plantG' sont créés en interne pour l'illustration.

1 Bloc de code
DATA STEP / PROC PRINT Data
Explication :
Ce code SAS crée deux jeux de données, 'animal' et 'plantG', puis les combine à l'aide de deux instructions SET consécutives. Le DATA step lit une observation de 'animal' puis une observation de 'plantG' pour chaque itération. Les valeurs de la variable 'common' du jeu de données 'plantG' (spécifié en dernier) écrasent celles du jeu de données 'animal'. Le jeu de données 'combine' résultant aura un nombre d'observations égal à celui du plus petit des jeux de données d'entrée. La sortie PROC PRINT montre le jeu de données combiné, illustrant comment les valeurs de 'common' de 'plantG' ont été conservées, même en cas de divergence à la sixième observation (où 'animal' avait 'f' et 'plantG' avait 'g', le 'g' de 'plantG' est retenu).
Copié !
1DATA animal;
2 INPUT common $ animal $;
3 DATALINES;
4a Ant
5b Bird
6c Cat
7d Dog
8e Eagle
9f Frog
10;
11RUN;
12 
13DATA plantG;
14 INPUT common $ plant $;
15 DATALINES;
16a Apple
17b Banana
18c Coconut
19d Dewberry
20e Eggplant
21g Fig
22;
23RUN;
24 
25DATA combine;
26 SET animal;
27 SET plantG;
28RUN;
29 
30PROC PRINT DATA=combine; RUN;
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
Banner
Le Conseil de l'Expert
Expert
Stéphanie
Spécialiste Machine Learning et IA.
« Utilisez cette méthode principalement pour ajouter des variables globales (comme des constantes ou des moyennes calculées au préalable) à chaque ligne d'une table principale. Pour toute autre forme de combinaison de données, privilégiez le MERGE avec une instruction BY, qui offre une sécurité bien supérieure contre les décalages de lignes accidentels. »