bart bartGauss

Analyse klinischer Studiendaten mit fehlenden Werten

Scénario de test & Cas d'usage

Geschäftskontext

Ein Pharmaunternehmen analysiert die Wirksamkeit eines neuen Medikaments. Die gesammelten Daten enthalten jedoch fehlende Werte für mehrere Biomarker, da einige Patienten die Studie vorzeitig verlassen haben. Das Modell muss robust gegenüber diesen fehlenden Daten sein.
Über das Set : bart

Bayesianische additive Regressionsbäume.

Entdecken Sie alle Aktionen von bart
Datenaufbereitung

Erstellt eine Tabelle 'studien_daten' mit fehlenden Werten in den Prädiktorvariablen 'biomarker1' und 'biomarker2'.

Kopiert!
1DATA casuser.studien_daten;
2call streaminit(987);
3DO i = 1 to 500;
4 alter = 30 + rand('INTEGER', 1, 40);
5 biomarker1 = 10 + 20 * rand('UNIFORM');
6 biomarker2 = 50 + 50 * rand('UNIFORM');
7 wirksamkeit = 50 + 0.5 * alter + 1.5 * biomarker1 - 0.8 * biomarker2 + rand('NORMAL', 0, 10);
8 IF rand('UNIFORM') < 0.25 THEN call missing(biomarker1);
9 IF rand('UNIFORM') < 0.15 THEN call missing(biomarker2);
10 OUTPUT;
11END;
12RUN;

Étapes de réalisation

1
Laden der Daten mit fehlenden Werten in den CAS-Server.
Kopiert!
1 
2PROC CASUTIL;
3load
4DATA=casuser.studien_daten outcaslib='casuser' casout='studien_daten' replace;
5RUN;
6 
2
Ausführen der bart.bartGauss-Aktion mit der Strategie 'SEPARATE' zur Behandlung fehlender Werte, um zu sehen, ob fehlende Werte als eigenständige Kategorie behandelt werden.
Kopiert!
1PROC CAS;
2bart.bartGauss /
3 TABLE={name='studien_daten'},
4 target='wirksamkeit',
5 inputs={{name='alter'}, {name='biomarker1'}, {name='biomarker2'}},
6 missing='SEPARATE',
7 nTree=50,
8 nBI=200,
9 nMC=1000,
10 seed=555;
11RUN;
12QUIT;
3
Erneutes Ausführen der Aktion mit der Strategie 'MACBIG', um die Ergebnisse zu vergleichen.
Kopiert!
1PROC CAS;
2bart.bartGauss /
3 TABLE={name='studien_daten'},
4 target='wirksamkeit',
5 inputs={{name='alter'}, {name='biomarker1'}, {name='biomarker2'}},
6 missing='MACBIG',
7 nTree=50,
8 nBI=200,
9 nMC=1000,
10 seed=555;
11RUN;
12QUIT;

Erwartetes Ergebnis


Beide Läufe der Aktion werden ohne Fehler abgeschlossen, was zeigt, dass die Aktion fehlende Werte verarbeiten kann. Die Ausgabetabellen, insbesondere die 'Variableninformationen', sollten die Anzahl der fehlenden Werte für 'biomarker1' und 'biomarker2' anzeigen. Die Modellanpassungsstatistiken (z.B. in der 'FitStatistics'-Tabelle, falls angezeigt) werden sich zwischen den Läufen in Schritt 2 und 3 leicht unterscheiden, was die unterschiedlichen Strategien zur Behandlung fehlender Werte widerspiegelt.