Analyse und Sortierung von Krebsdaten

Dieser Code ist auch verfügbar auf: English Español Français
Schwierigkeitsgrad
Anfänger
Veröffentlicht am :
Das Skript beginnt mit einem DATA STEP, der Informationen über Krebs (Ursache, Jahr, Anzahl männlicher und weiblicher Fälle, Anzahl männlicher und weiblicher Todesfälle) aus dem DATALINES-Abschnitt liest. Anschließend berechnet es die Variable 'deaths' (Gesamttodesfälle) und konvertiert 'mcases' und 'mdeaths' in negative Werte für einen potenziellen spezifischen Anzeige- oder Analysezweck. Danach wird eine PROC SORT verwendet, um den Datensatz 'work.cancer' zu sortieren und 'work.cancer_sorted' zu erstellen, wobei die Datensätze nach 'Ano' (Jahr) und 'deaths' (Todesfälle) in absteigender Reihenfolge geordnet werden. Schließlich wird ein PROC FORMAT definiert, um ein benutzerdefiniertes Bildformat namens 'positive' zu erstellen, das Zahlen mit Tausendertrennzeichen formatiert.
Datenanalyse

Type : CREATION_INTERNE


Die Rohdaten werden direkt über den DATALINES-Abschnitt des DATA STEP in das SAS-Skript integriert, was bedeutet, dass sie intern erstellt werden und nicht von externen Dateien oder bereits vorhandenen SAS-Bibliotheken abhängen (mit Ausnahme der standardmäßigen Arbeitsbibliotheken wie WORK).

1 Codeblock
DATA STEP Data
Erklärung :
Dieser DATA STEP erstellt den Datensatz 'work.cancer'. Er liest die Variablen 'cause', 'Ano', 'mcases', 'fcases', 'mdeaths', 'fdeaths' aus den Datenzeilen ('datalines'). 'cause' ist eine Zeichenkette von 20 Positionen, 'Ano' wird ebenfalls als Zeichenkette gelesen (obwohl sie Zahlen enthält), und die anderen sind numerisch. Er berechnet eine neue Variable 'deaths', indem er 'mdeaths' und 'fdeaths' addiert. Die Variablen 'mcases' und 'mdeaths' werden mit -1 multipliziert, wodurch sie negativ werden. Dies könnte für eine grafische Darstellung oder eine spezifische Berechnung sein, bei der diese Werte als Abzüge behandelt werden.
Kopiert!
1DATA work.cancer;
2 INFILE DATALINES;
3 INPUT cause $ 1-20 Ano $ mcases fcases mdeaths fdeaths;
4 deaths=mdeaths + fdeaths;
5 mcases= -1 * mcases;
6 mdeaths= -1 * mdeaths;
7 DATALINES;
8Câncer de Pulmão 2007 114760 98620 89510 70880
9Câncer Colorretal 2007 55290 57050 26000 26180
10Câncer de Mama 2007 2030 178480 450 40460
11Câncer de Pâncreas 2007 18830 18340 16840 16530
12Câncer de Próstata 2007 218890 0 27050 0
13Leucemia 2007 24800 19440 12320 9470
14Linfoma 2007 38670 32710 10370 9360
15Câncer de Fígado 2007 13650 5510 11280 5500
16Câncer de Ovário 2007 0 22430 0 15280
17Câncer de Esôfago 2007 12130 3430 10900 3040
18Câncer de Bexiga 2007 50040 17120 9630 4120
19Câncer de Rim 2007 31590 19600 8080 4810
20Câncer de Pulmão 1997 98300 79800 94400 66000
21Câncer Colorretal 1997 45500 48600 22600 24000
22Câncer de Mama 1997 1400 180200 290 43900
23Câncer de Pâncreas 1997 13400 14200 13500 14600
24Câncer de Próstata 1997 334500 0 41800 0
25Leucemia 1997 15900 12400 11770 9540
26Linfoma 1997 34200 26900 13220 12060
27Câncer de Fígado 1997 9100 4500 7500 4900
28Câncer de Ovário 1997 0 26800 0 14200
29Câncer de Esôfago 1997 9400 3100 8700 2800
30Câncer de Bexiga 1997 39500 15000 7800 3900
31Câncer de Rim 1997 17100 11700 7000 4300
32;
33RUN;
2 Codeblock
PROC SORT
Erklärung :
Diese PROC SORT nimmt den Datensatz 'work.cancer' als Eingabe und erstellt einen neuen Datensatz namens 'work.cancer_sorted'. Die Sortierung erfolgt in zwei Schritten: zuerst nach 'Ano' (Jahr) in absteigender Reihenfolge und dann nach 'deaths' (Gesamtzahl der Todesfälle) ebenfalls in absteigender Reihenfolge. Dies ermöglicht die Klassifizierung der Daten nach den neuesten Jahren und, für jedes Jahr, nach den Krebsursachen mit der höchsten Anzahl an Todesfällen.
Kopiert!
1 
2PROC SORT
3DATA=cancer out=cancer_sorted;
4BY descending Ano descending deaths;
5RUN;
6 
3 Codeblock
PROC FORMAT
Erklärung :
Dieses PROC FORMAT definiert ein benutzerdefiniertes Bildformat namens 'positive'. Dieses Format wurde entwickelt, um positive Zahlen (von 0 bis zum maximalen Wert 'high') mit Tausendertrennzeichen anzuzeigen, z.B. '123.456'. Negative Zahlen (von 'low' bis weniger als 0) werden ebenfalls auf die gleiche Weise formatiert, was darauf hindeutet, dass das Format für die Anwendung auf absolute Zahlen oder Anzeigen gedacht ist, die nicht zwischen dem Vorzeichen unterscheiden, sondern eher die Größenordnung mit einer spezifischen Formatierung.
Kopiert!
1PROC FORMAT;
2 picture positive low-<0='000,000'
3 0<-high='000,000';
4RUN;
5 
Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.

Zugehörige Dokumentation

Aucune documentation spécifique pour cette catégorie.