Analyse et Tri de Données sur le Cancer

Ce code est également disponible en : Deutsch English Español
Niveau de difficulté
Débutant
Publié le :
Le script commence par un DATA STEP qui lit des informations sur le cancer (cause, année, nombre de cas masculins et féminins, nombre de décès masculins et féminins) à partir de la section DATALINES. Il calcule ensuite la variable 'deaths' (décès totaux) et convertit 'mcases' et 'mdeaths' en valeurs négatives pour une raison potentielle d'affichage ou d'analyse spécifique. Ensuite, une PROC SORT est utilisée pour trier le jeu de données 'work.cancer' et créer 'work.cancer_sorted', en ordonnant les enregistrements par 'Ano' (année) et 'deaths' (décès) de manière descendante. Enfin, une PROC FORMAT est définie pour créer un format d'image personnalisé appelé 'positive' qui formate les nombres avec des séparateurs de milliers.
Analyse des données

Type : CREATION_INTERNE


Les données brutes sont intégrées directement dans le script SAS via la section DATALINES du DATA STEP, ce qui signifie qu'elles sont créées en interne et ne dépendent pas de fichiers externes ou de bibliothèques SAS préexistantes (à l'exception des bibliothèques de travail standard comme WORK).

1 Bloc de code
DATA STEP Data
Explication :
Ce DATA STEP crée le jeu de données 'work.cancer'. Il lit les variables 'cause', 'Ano', 'mcases', 'fcases', 'mdeaths', 'fdeaths' à partir des lignes de données ('datalines'). 'cause' est une chaîne de caractères de 20 positions, 'Ano' est également lue comme une chaîne (bien qu'elle contienne des nombres), et les autres sont numériques. Il calcule une nouvelle variable 'deaths' en additionnant 'mdeaths' et 'fdeaths'. Les variables 'mcases' et 'mdeaths' sont multipliées par -1, ce qui les rend négatives. Cela pourrait être pour une représentation graphique ou un calcul spécifique où ces valeurs sont traitées comme des déductions.
Copié !
1DATA work.cancer;
2 INFILE DATALINES;
3 INPUT cause $ 1-20 Ano $ mcases fcases mdeaths fdeaths;
4 deaths=mdeaths + fdeaths;
5 mcases= -1 * mcases;
6 mdeaths= -1 * mdeaths;
7 DATALINES;
8Câncer de Pulmão 2007 114760 98620 89510 70880
9Câncer Colorretal 2007 55290 57050 26000 26180
10Câncer de Mama 2007 2030 178480 450 40460
11Câncer de Pâncreas 2007 18830 18340 16840 16530
12Câncer de Próstata 2007 218890 0 27050 0
13Leucemia 2007 24800 19440 12320 9470
14Linfoma 2007 38670 32710 10370 9360
15Câncer de Fígado 2007 13650 5510 11280 5500
16Câncer de Ovário 2007 0 22430 0 15280
17Câncer de Esôfago 2007 12130 3430 10900 3040
18Câncer de Bexiga 2007 50040 17120 9630 4120
19Câncer de Rim 2007 31590 19600 8080 4810
20Câncer de Pulmão 1997 98300 79800 94400 66000
21Câncer Colorretal 1997 45500 48600 22600 24000
22Câncer de Mama 1997 1400 180200 290 43900
23Câncer de Pâncreas 1997 13400 14200 13500 14600
24Câncer de Próstata 1997 334500 0 41800 0
25Leucemia 1997 15900 12400 11770 9540
26Linfoma 1997 34200 26900 13220 12060
27Câncer de Fígado 1997 9100 4500 7500 4900
28Câncer de Ovário 1997 0 26800 0 14200
29Câncer de Esôfago 1997 9400 3100 8700 2800
30Câncer de Bexiga 1997 39500 15000 7800 3900
31Câncer de Rim 1997 17100 11700 7000 4300
32;
33RUN;
2 Bloc de code
PROC SORT
Explication :
Cette PROC SORT prend le jeu de données 'work.cancer' en entrée et crée un nouveau jeu de données nommé 'work.cancer_sorted'. Le tri est effectué en deux étapes : d'abord par 'Ano' (année) en ordre décroissant, puis par 'deaths' (nombre total de décès) également en ordre décroissant. Cela permet de classer les données par les années les plus récentes et, pour chaque année, par les causes de cancer ayant le plus grand nombre de décès.
Copié !
1 
2PROC SORT
3DATA=cancer out=cancer_sorted;
4BY descending Ano descending deaths;
5RUN;
6 
3 Bloc de code
PROC FORMAT
Explication :
Cette PROC FORMAT définit un format d'image personnalisé appelé 'positive'. Ce format est conçu pour afficher les nombres positifs (de 0 à la valeur maximale 'high') avec des séparateurs de milliers, par exemple, '123,456'. Les nombres négatifs (de 'low' à moins de 0) sont également formatés de la même manière, ce qui semble indiquer que le format est destiné à être appliqué à des nombres absolus ou à des affichages qui ne distinguent pas le signe, mais plutôt la magnitude avec un formatage spécifique.
Copié !
1PROC FORMAT;
2 picture positive low-<0='000,000'
3 0<-high='000,000';
4RUN;
5 
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.

Documentation liée

Aucune documentation spécifique pour cette catégorie.