Analyse komplexer fehlender Muster in klinischen Studiendaten mit vollständig leeren Beobachtungen

Geschäftskontext

In klinischen Studien sind Daten oft unvollständig. Einige Patienten versäumen Termine, oder bestimmte Tests sind nicht anwendbar. Es kann sogar Datensätze für Studienabbrecher geben, die fast vollständig leer sind. Ziel ist es, diese Muster, insbesondere das 'Dropout'-Muster, zu identifizieren und zu sehen, wie sie mit dem Studienergebnis ('Behandlungserfolg') zusammenhängen.

Über das Set : dataSciencePilot

Automatisiertes maschinelles Lernen (AutoML) und Pipeline-Generierung.

Entdecken Sie alle Aktionen von dataSciencePilot

Datenaufbereitung

Erstellung eines Datensatzes für eine klinische Studie mit verschiedenen komplexen Mustern fehlender Werte, einschließlich vollständig leerer Zeilen, die Studienabbrecher repräsentieren.

Kopiert!

1	DATA mycas.STUDIEN_DATEN;
2	INPUT Patienten_ID $ Biomarker_A Biomarker_B Nebenwirkung_Grad $ Behandlungserfolg;
3	DATALINES;
4	P01 1.23 45.1 MILD 1
5	P02 1.45 . SCHWER 0
6	P03 . 33.9 MILD 1
7	P04 2.11 50.2 . 1
8	P05 . . . .
9	P06 0.98 29.5 KEINE 1
10	P07 . . SCHWER 0
11	P08 . . . .
12	;
13	RUN;

Étapes de réalisation

Ausführung der Analyse, um alle Muster fehlender Werte zu identifizieren, insbesondere das Muster, bei dem alle analytischen Variablen fehlen (Studienabbrecher).

Kopiert!

1	PROC CAS;
2	dataSciencePilot.analyzeMissingPatterns
3	TABLE={name='STUDIEN_DATEN'},
4	inputs={'Biomarker_A', 'Biomarker_B', 'Nebenwirkung_Grad'},
5	casOut={name='clinical_patterns_base', replace=true};
6	RUN;
7	QUIT;

Wiederholung der Analyse, diesmal mit 'Behandlungserfolg' als Zielvariable, um zu prüfen, ob ein vollständiger Datenverlust mit dem Ergebnis korreliert.

Kopiert!

1	PROC CAS;
2	dataSciencePilot.analyzeMissingPatterns
3	TABLE={name='STUDIEN_DATEN'},
4	inputs={'Biomarker_A', 'Biomarker_B', 'Nebenwirkung_Grad'},
5	target='Behandlungserfolg',
6	casOut={name='clinical_patterns_target', replace=true};
7	RUN;
8	QUIT;

Erwartetes Ergebnis

Die Tabelle 'clinical_patterns_base' soll das Muster, bei dem 'Biomarker_A', 'Biomarker_B' und 'Nebenwirkung_Grad' alle fehlen, korrekt identifizieren und seine Häufigkeit (2) angeben. Die Tabelle 'clinical_patterns_target' soll zeigen, dass für dieses spezifische 'Dropout'-Muster auch die Zielvariable 'Behandlungserfolg' immer fehlt. Dies bestätigt die Fähigkeit der Aktion, extreme Fälle von fehlenden Werten zu behandeln und deren Beziehung zu Ergebnisvariablen aufzuzeigen.

Voir la documentation technique de analyzeMissingPatterns