Datenbereinigung und Duplikatenentfernung bei aufeinanderfolgenden Daten

Bei der Verarbeitung klinischer oder transaktionaler Daten treten häufig "unvollständige" Duplikate auf. Ein klassischer Fall ist, dass ein Ereignis (wie eine medizinische Behandlung) zweimal erfasst wird: einmal am Startdatum und einmal am Folgetag, wodurch zwei Beobachtungen für dasselbe Ereignis entstehen.

Dieser Artikel untersucht, wie ein Datensatz bereinigt werden kann, bei dem jede Beobachtung an zwei aufeinanderfolgenden Tagen wiederholt wird, mit dem Ziel, die erste Beobachtung (das älteste Datum) zu entfernen und nur die zweite (das jüngste Datum) beizubehalten.

Das Problem

Stellen wir uns einen Datensatz vor, der die Variablen id, group und treatmentdate enthält. Jede Behandlung erstreckt sich über zwei aufeinanderfolgende Tage und erzeugt zwei Zeilen. Darüber hinaus kann eine einzige Kennung (id) innerhalb derselben Gruppe mehrere unterschiedliche Behandlungszeiträume haben.

Beispiel für Rohdaten:

id	group	treatmentdate	Hinweis
A1	0	30Sep2017	Zu löschen
A1	0	01Oct2017	Zu behalten
A2	1	06Nov2017	Zu löschen
A2	1	07Nov2017	Zu behalten
A1	0	23Oct2017	Zu löschen (Neue Episode für A1)
A1	0	24Oct2017	Zu behalten

Ein naiver Ansatz unter Verwendung von PROC SQL mit einem GROUP BY id, group und MAX(day) würde hier fehlschlagen, da er die Unterscheidung zwischen den verschiedenen Behandlungszeiträumen überschreiben würde (z.B. für A1 würde er nur den 24. Oktober behalten und den 1. Oktober verlieren).

Die optimale Lösung

Die robusteste Methode basiert auf der Verwendung des DATA Step in Kombination mit einer intelligenten Sortierung (PROC SORT). Die Idee ist, die Funktion DIF zu verwenden, um die Daten zwischen den Zeilen zu vergleichen, während Gruppenwechsel geschützt werden.

Schritt 1: Die Sortierung (PROC SORT)

Der Trick besteht darin, die Daten in absteigender Reihenfolge nach Datum zu sortieren. Indem das jüngste Datum zuerst platziert wird, verwandeln wir das Problem: Anstatt "nach der nächsten Zeile zu suchen, um zu sehen, ob sie gleich ist", können wir einfach die aktuelle Zeile mit der vorherigen vergleichen.

1
2	PROC SORT
3	DATA=have out=inter;
4
5	BY id group DESCENDING treatmentdate;
6
7	RUN;
8

Warum DESCENDING? Wenn wir die Daten 30Sep und 01Oct haben, platziert die absteigende Sortierung 01Oct an erster Stelle und 30Sep an zweiter. Da wir 01Oct behalten wollen, wird es zuerst verarbeitet (und standardmäßig beibehalten), während 30Sep als "Vortag" der vorherigen Zeile identifiziert und gelöscht werden kann.

Schritt 2: Die Bereinigung (DATA Step)

Hier ist der Code zum Filtern der Daten:

1	DATA want;
2	SET inter;
3	BY id group DESCENDING treatmentdate;
4
5	/* La condition magique */
6	IF dif1(treatmentdate) = -1 and not first.group THEN delete;
7	RUN;

Detaillierte Code-Analyse

dif1(treatmentdate): Diese Funktion berechnet die Differenz zwischen dem Wert von treatmentdate der aktuellen Zeile und dem der vorherigen Zeile (Zeile N - Zeile N-1).
- In unserem sortierten Fall: Vorherige Zeile = 01Oct, Aktuelle Zeile = 30Sep.
- Berechnung: 30Sep - 01Oct = -1.
- Wenn das Ergebnis -1 ist, bestätigt dies, dass die aktuelle Zeile genau einen Tag vor der vorherigen Zeile liegt.
not first.group: Dies ist eine entscheidende Absicherung.
- Die Funktion DIF "sieht" die Gruppen nicht; sie vergleicht Zeile 10 stur mit Zeile 9, selbst wenn sich die ID ändert.
- Wenn die letzte Zeile von Patient A der 05Nov und die erste Zeile von Patient B der 04Nov ist, gibt DIF -1 zurück. Ohne diesen Schutz würden Sie versehentlich die erste Zeile von Patient B löschen.
- not first.group stellt sicher, dass die Löschung niemals in der ersten Zeile einer neuen Gruppe erfolgt.
Reihenfolge der Bedingungen: Es ist zwingend erforderlich, dif(...) zuerst zu platzieren oder sicherzustellen, dass es für jede Zeile ausgeführt wird. In SAS^©, wenn Sie if condition1 and condition2 verwenden und condition1 falsch ist, wird condition2 manchmal nicht ausgewertet. Für die Funktion DIF ist es jedoch entscheidend, dass sie jede Zeile "liest", um ihren verschobenen Speicher korrekt zu halten.

Warum keine anderen Methoden verwenden?

Mathematischer Ansatz (MOD(_N_, 2)): Man könnte versucht sein, jede zweite Zeile beizubehalten (if mod(_n_,2)=0). Dies ist sehr riskant. Wenn eine einzige Beobachtung in Ihrem Datensatz fehlt (durch Eingabefehler) oder Sie eine ungerade Anzahl von Zeilen haben, breitet sich die gesamte Verschiebung aus und korrumpiert den Rest der Daten.
SQL-Ansatz (HAVING MAX(date)): Wie bereits erwähnt, aggregiert SQL oft zu weit. Wenn ein Patient zwei verschiedene Behandlungen in einem Monat hat, riskiert GROUP BY, nur eine davon zu behalten (die letzte des Monats), wodurch die Zwischenhistorie verloren geht.

Um die älteste Beobachtung eines Paares aufeinanderfolgender Daten zu löschen:

Sortieren Sie nach ID und Datum in absteigender Reihenfolge.
Berechnen Sie die Differenz zur vorherigen Zeile (DIF).
Löschen Sie, wenn die Differenz -1 (Vortag) beträgt, aber schützen Sie die erste Zeile jeder Gruppe (FIRST.group).

Avertissement important

Les codes et exemples fournis sur WeAreCAS.eu sont à but pédagogique. Il est impératif de ne pas les copier-coller aveuglément sur vos environnements de production. La meilleure approche consiste à comprendre la logique avant de l'appliquer. Nous vous recommandons vivement de tester ces scripts dans un environnement de test (Sandbox/Dev). WeAreCAS décline toute responsabilité quant aux éventuels impacts ou pertes de données sur vos systèmes.

Retour à la liste des articles