Leistungsanalyse und Monte-Carlo-Simulation für Zwei-Mittelwert-Tests

Schwierigkeitsgrad

Anfänger

Veröffentlicht am : 26/06/2023

Das Skript beginnt mit der Verwendung von PROC POWER, um die theoretische Power für verschiedene Parameterkombinationen eines Zwei-Mittelwert-Tests zu berechnen. Anschließend werden Grafiken zur Visualisierung dieser Beziehungen erstellt. Eine manuelle Implementierung der Power-Berechnung ist ebenfalls zum Vergleich enthalten. Der zweite Teil des Skripts implementiert eine Monte-Carlo-Simulation, um die Power empirisch zu schätzen: Es werden Tausende von Datensätzen unter verschiedenen Bedingungen generiert, T-Tests an jedem durchgeführt und anschließend der Anteil signifikanter Tests berechnet, wodurch eine simulierte Schätzung der Power erhalten wird.

Datenanalyse

Type : CREATION_INTERNE

Alle in diesem Skript verwendeten Daten werden intern generiert, entweder durch PROC POWER (Power-Berechnungen) oder durch DATA STEPs (Generierung simulierter Daten für den T-Test und manuelle Power-Berechnung).

1 Codeblock

PROC POWER

Erklärung :
Dieser Block verwendet die PROC POWER-Prozedur, um die statistische Power für einen Test zum Vergleich zweier unabhängiger Mittelwerte (test=diff) zu berechnen. Er untersucht verschiedene Kombinationen der Mittelwertdifferenz (meandiff), der Standardabweichung (stddev), des Signifikanzniveaus (alpha) und der Gesamtstichprobengröße (ntotal). Der Wert `power = .` gibt an, dass die Power der zu berechnende Wert ist.

Kopiert!

1	PROC POWER;
2	twosamplemeans test=diff
3	meandiff = 5 6
4	stddev = 12 18
5	alpha = 0.05 0.1
6	ntotal = 100 200
7	power = .;
8	RUN;

2 Codeblock

PROC POWER

Erklärung :
Dieser Block aktiviert das Output Delivery System (ODS), um Grafiken zu generieren. PROC POWER wird mit der Option `plotonly` ausgeführt, um nur Power-Plots ohne Texttabellen zu erzeugen. Der Unterbefehl `plot` passt das Erscheinungsbild der Grafiken an, sodass Farbe, Linientyp und Symbol je nach verschiedenen Variablen variieren können. `ods output output=powdata;` speichert die für die Grafiken verwendeten Daten in einem Datensatz namens `powdata`.

Kopiert!

1	ods graphics on;
2
3	PROC POWER plotonly;
4	twosamplemeans test=diff
5	meandiff = 5 6
6	stddev = 12 18
7	alpha = 0.05 0.1
8	ntotal = 100 200
9	power = .;
10	plot;
11	RUN;
12
13	ods graphics off;
14
15	plot
16	min=60
17	yopts=(ref=0.9 crossref=yes)
18	vary(color BY stddev, linestyle BY meandiff, symbol BY alpha);
19
20	ods OUTPUT OUTPUT=powdata;

3 Codeblock

DATA STEP Data

Erklärung :
Dieser DATA STEP erstellt einen Datensatz namens `tpow`, indem er die Power für jede Kombination der angegebenen Parameter berechnet. `ncp` (Nichtzentralitätsparameter) und `critval` (kritischer Wert der F-Verteilung) werden berechnet. Die Power wird dann mit der Funktion `sdf` (Survival Density Function) der nichtzentralen F-Verteilung bestimmt.

Kopiert!

1	DATA tpow;
2	DO meandiff = 5, 6;
3	DO stddev = 12, 18;
4	DO alpha = 0.05, 0.1;
5	DO ntotal = 100, 200;
6	ncp = ntotal * 0.5 * 0.5 * meandiff2 / stddev2;
7	critval = finv(1-alpha, 1, ntotal-2, 0);
8	power = sdf('f', critval, 1, ntotal-2, ncp);
9	OUTPUT;
10	END;
11	END;
12	END;
13	END;
14	RUN;

4 Codeblock

PROC PRINT

Erklärung :
Dieser Block verwendet PROC PRINT, um den Inhalt des Datensatzes `tpow` anzuzeigen und so die manuell berechneten Power-Werte zu visualisieren.

Kopiert!

1	PROC PRINT DATA=tpow;
2	RUN;

5 Codeblock

DATA STEP Data

Erklärung :
Dieser Block initialisiert mehrere Makrovariablen (`meandiff`, `stddev`, `alpha`, `ntotal`, `nsim`), die in der Simulation verwendet werden. Der DATA STEP `simdata` generiert dann eine große Anzahl (`&nsim`) simulierter Datensätze. Für jede Simulation (`isim`) erstellt er Beobachtungen für zwei Gruppen (`group` 1 und 2), wobei die Variable `y` aus einer Normalverteilung gezogen wird. Gruppe 1 hat einen Mittelwert von 0 und Gruppe 2 einen Mittelwert gleich `&meandiff`, mit einer gemeinsamen Standardabweichung `&stddev`. `call streaminit(123)` gewährleistet die Reproduzierbarkeit der Zufallszahlengenerierung.

Kopiert!

1	%let meandiff = 5;
2	%let stddev = 12;
3	%let alpha = 0.05;
4	%let ntotal = 100;
5	%let nsim = 10000;
6
7	DATA simdata;
8	call streaminit(123);
9	DO isim = 1 to ≁
10	DO i = 1 to floor(&ntotal/2);
11	group = 1;
12	y = rand('normal', 0 , &stddev);
13	OUTPUT;
14	group = 2;
15	y = rand('normal', &meandiff, &stddev);
16	OUTPUT;
17	END;
18	END;
19	RUN;

6 Codeblock

PROC TTEST

Erklärung :
Dieser Block deaktiviert vorübergehend alle Standard-ODS-Ausgaben, um eine übermäßige Anzeige zu vermeiden. Anschließend wird PROC TTEST für die simulierten Daten (`simdata`) ausgeführt. Die Anweisung `by isim` führt für jede einzelne Simulation einen T-Test durch. `class group` definiert die beiden zu vergleichenden Gruppen, und `var y` gibt die zu testende Variable an. `ods output ttests=tests` speichert die Ergebnisse der T-Tests in einem neuen Datensatz namens `tests`. Abschließend werden die ODS-Ausgaben wieder aktiviert.

Kopiert!

1	ods exclude all;
2	PROC TTEST DATA=simdata;
3	ods OUTPUT ttests=tests;
4	BY isim;
5	class group;
6	var y;
7	RUN;
8	ods exclude none;

7 Codeblock

DATA STEP Data

Erklärung :
Dieser DATA STEP verarbeitet den Datensatz `tests` (aus PROC TTEST). Er filtert die Beobachtungen, um nur die Ergebnisse zu behalten, die der Methode "Pooled" (gepoolte Varianz) entsprechen. Eine neue Variable `issig` wird erstellt, die den Wert 1 annimmt, wenn der p-Wert (`probt`) des Tests unter dem Alpha-Schwellenwert (`&alpha`) liegt, was auf einen signifikanten Test hinweist, und 0 sonst.

Kopiert!

1	DATA tests;
2	SET tests;
3	where method="Pooled";
4	issig = probt < α
5	RUN;

8 Codeblock

PROC FREQ

Erklärung :
Dieser Block verwendet PROC FREQ für den Datensatz `tests`, um die Häufigkeit der Variablen `issig` zu analysieren. Die Option `ods select binomial` ermöglicht es, nur die Ergebnisse des Binomialtests anzuzeigen. Die Anweisung `tables issig / binomial(level='1')` berechnet den Anteil signifikanter Tests (`issig = 1`) und liefert ein binomiales Konfidenzintervall für diesen Anteil, was die Schätzung der statistischen Power durch Simulation darstellt.

Kopiert!

1	PROC FREQ DATA=tests;
2	ods select binomial;
3	tables issig / binomial(level='1');
4	RUN;

Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.

Zugehörige Dokumentation

Aucune documentation spécifique pour cette catégorie.