Das Skript besteht aus zwei unabhängigen Analysen. Der erste Teil erstellt eine Tabelle 'drinking', um den Zusammenhang zwischen Alkoholkonsum und Leberzirrhose pro Land zu analysieren. Er erzeugt ein Streudiagramm, führt mehrere Regressionsmodelle mit PROC REG aus, einschließlich eines Modells, das ein bestimmtes Land (Frankreich) ausschließt, und identifiziert einflussreiche Beobachtungen. Der zweite Teil erstellt eine Tabelle 'universe', die Daten zur Entfernung und Geschwindigkeit von Galaxien enthält. Er visualisiert diese Daten und passt ein lineares Regressionsmodell ohne y-Achsenabschnitt an, um das Hubble-Gesetz zu veranschaulichen, wobei auch Punkte mit hoher Einflussnahme (Leverage) identifiziert werden.
Datenanalyse
Type : CREATION_INTERNE
Die beiden Datensätze, 'drinking' und 'universe', werden innerhalb des Skripts mit Hilfe eines DATA STEPs und der Anweisung 'cards' oder 'datalines' generiert, wodurch sie autonom sind.
1 Codeblock
DATA STEP Data
Erklärung : Erstellt die Arbeitstabelle 'drinking' aus manuell eingegebenen Daten mit der Anweisung 'cards'. Die Tabelle enthält drei Variablen: den Namen des Landes, den Alkoholkonsum und die Leberzirrhoserate.
Kopiert!
data drinking;
input country $ 1-12 alcohol cirrhosis;
cards;
France 24.7 46.1
Italy 15.2 23.6
W.Germany 12.3 23.7
Austria 10.9 7.0
Belgium 10.8 12.3
USA 9.9 14.2
Canada 8.3 7.4
E&W 7.2 3.0
Sweden 6.6 7.2
Japan 5.8 10.6
Netherlands 5.7 3.7
Ireland 5.6 3.4
Norway 4.2 4.3
Finland 3.9 3.6
Israel 3.1 5.4
;
run;
1
DATA drinking;
2
INPUT country $ 1-12 alcohol cirrhosis;
3
CARDS;
4
France 24.746.1
5
Italy 15.223.6
6
W.Germany 12.323.7
7
Austria 10.97.0
8
Belgium 10.812.3
9
USA 9.914.2
10
Canada 8.37.4
11
E&W 7.23.0
12
Sweden 6.67.2
13
Japan 5.810.6
14
Netherlands 5.73.7
15
Ireland 5.63.4
16
Norway 4.24.3
17
Finland 3.93.6
18
Israel 3.15.4
19
;
20
RUN;
2 Codeblock
PROC SGPLOT
Erklärung : Erzeugt ein Streudiagramm (scatter plot) zur Visualisierung der Beziehung zwischen Alkoholkonsum ('alcohol') und Leberzirrhose ('cirrhosis'). Jeder Punkt ist mit dem Namen des Landes beschriftet. Der auskommentierte Codeblock zeigt eine ältere Methode, um ein ähnliches Ergebnis mit PROC GPLOT zu erhalten.
Erklärung : Führt eine einfache lineare Regression durch, um die Leberzirrhoserate in Abhängigkeit vom Alkoholkonsum zu modellieren. `ODS GRAPHICS ON` ermöglicht die automatische Generierung von Diagnosegrafiken der Regression. Der auskommentierte Code zeigt eine Alternative zum Überlagern einer Regressionsgeraden auf ein Streudiagramm mit PROC SGPLOT.
Erklärung : Führt ein neues lineares Regressionsmodell aus, das die Beobachtung für Frankreich ausschließt, die im vorherigen Diagramm als potenziell einflussreicher Punkt identifiziert wurde.
Kopiert!
proc reg data=drinking;
model cirrhosis=alcohol;
where country ne 'France';
run; quit;
1
PROC REGDATA=drinking;
2
model cirrhosis=alcohol;
3
where country ne 'France';
4
RUN; QUIT;
5 Codeblock
PROC REG Data
Erklärung : Führt die Regression erneut auf allen Daten aus und speichert die Diagnosestatistiken in einer neuen Tabelle 'regout'. Die PROC PRINT Prozedur wird dann verwendet, um Beobachtungen anzuzeigen, die als Ausreißer (absolut studentisiertes Residuum > 2) oder einflussreiche Punkte (Hebel > 0.3) angesehen werden.
Kopiert!
proc reg data=drinking;
model cirrhosis=alcohol;
output out=regout predicted=pred student=zres h=leverage;
run; quit;
proc print data=regout;
where abs(zres)>2 or leverage>.3;
run;
Erklärung : Erstellt die Arbeitstabelle 'universe' aus manuell eingegebenen Galaxiendaten (ID, Name, Geschwindigkeit, Entfernung) mit der Anweisung 'datalines'.
Erklärung : Erzeugt ein Streudiagramm zur Visualisierung der Beziehung zwischen der Entfernung einer Galaxie und ihrer Fluchtgeschwindigkeit, wobei Achsenbeschriftungen hinzugefügt werden. Der auskommentierte Code zeigt das Äquivalent mit der veralteten Prozedur PROC GPLOT.
Erklärung : Passt ein lineares Regressionsmodell für die Geschwindigkeit in Abhängigkeit von der Entfernung an. Die Option `NOINT` zwingt die Regressionsgerade dazu, durch den Ursprung zu gehen, was mit dem Hubble-Gesetz (Geschwindigkeit = H0 * Entfernung) übereinstimmt.
Erklärung : Führt die Regression erneut ohne y-Achsenabschnitt aus und speichert die Diagnosestatistiken in der Tabelle 'regout' (überschreibt die vorherige). PROC PRINT zeigt dann die Beobachtungen mit einem Leverage-Wert über 0.08 an, wodurch die einflussreichsten Punkte auf die Modellschätzung identifiziert werden.
Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.
SAS und alle anderen Produkt- oder Dienstleistungsnamen von SAS Institute Inc. sind eingetragene Marken oder Marken von SAS Institute Inc. in den USA und anderen Ländern. ® zeigt die Registrierung in den USA an. WeAreCAS ist eine unabhängige Community-Site und nicht mit SAS Institute Inc. verbunden.
Diese Website verwendet technische und analytische Cookies, um Ihre Erfahrung zu verbessern.
Mehr erfahren.