dataSciencePilot analyzeMissingPatterns

Analyse komplexer fehlender Muster in klinischen Studiendaten mit vollständig leeren Beobachtungen

Scénario de test & Cas d'usage

Geschäftskontext

In klinischen Studien sind Daten oft unvollständig. Einige Patienten versäumen Termine, oder bestimmte Tests sind nicht anwendbar. Es kann sogar Datensätze für Studienabbrecher geben, die fast vollständig leer sind. Ziel ist es, diese Muster, insbesondere das 'Dropout'-Muster, zu identifizieren und zu sehen, wie sie mit dem Studienergebnis ('Behandlungserfolg') zusammenhängen.
Über das Set : dataSciencePilot

Automatisiertes maschinelles Lernen (AutoML) und Pipeline-Generierung.

Entdecken Sie alle Aktionen von dataSciencePilot
Datenaufbereitung

Erstellung eines Datensatzes für eine klinische Studie mit verschiedenen komplexen Mustern fehlender Werte, einschließlich vollständig leerer Zeilen, die Studienabbrecher repräsentieren.

Kopiert!
1DATA mycas.STUDIEN_DATEN;
2 INPUT Patienten_ID $ Biomarker_A Biomarker_B Nebenwirkung_Grad $ Behandlungserfolg;
3 DATALINES;
4P01 1.23 45.1 MILD 1
5P02 1.45 . SCHWER 0
6P03 . 33.9 MILD 1
7P04 2.11 50.2 . 1
8P05 . . . .
9P06 0.98 29.5 KEINE 1
10P07 . . SCHWER 0
11P08 . . . .
12;
13RUN;

Étapes de réalisation

1
Ausführung der Analyse, um alle Muster fehlender Werte zu identifizieren, insbesondere das Muster, bei dem alle analytischen Variablen fehlen (Studienabbrecher).
Kopiert!
1PROC CAS;
2 dataSciencePilot.analyzeMissingPatterns
3 TABLE={name='STUDIEN_DATEN'},
4 inputs={'Biomarker_A', 'Biomarker_B', 'Nebenwirkung_Grad'},
5 casOut={name='clinical_patterns_base', replace=true};
6RUN;
7QUIT;
2
Wiederholung der Analyse, diesmal mit 'Behandlungserfolg' als Zielvariable, um zu prüfen, ob ein vollständiger Datenverlust mit dem Ergebnis korreliert.
Kopiert!
1PROC CAS;
2 dataSciencePilot.analyzeMissingPatterns
3 TABLE={name='STUDIEN_DATEN'},
4 inputs={'Biomarker_A', 'Biomarker_B', 'Nebenwirkung_Grad'},
5 target='Behandlungserfolg',
6 casOut={name='clinical_patterns_target', replace=true};
7RUN;
8QUIT;

Erwartetes Ergebnis


Die Tabelle 'clinical_patterns_base' soll das Muster, bei dem 'Biomarker_A', 'Biomarker_B' und 'Nebenwirkung_Grad' alle fehlen, korrekt identifizieren und seine Häufigkeit (2) angeben. Die Tabelle 'clinical_patterns_target' soll zeigen, dass für dieses spezifische 'Dropout'-Muster auch die Zielvariable 'Behandlungserfolg' immer fehlt. Dies bestätigt die Fähigkeit der Aktion, extreme Fälle von fehlenden Werten zu behandeln und deren Beziehung zu Ergebnisvariablen aufzuzeigen.