Training zur Erkennung benannter Entitäten in medizinischen Berichten

Geschäftskontext

Ein Krankenhaus möchte automatisch Symptome und Medikamente aus unstrukturierten Arztbriefen extrahieren. Das Ziel ist es, ein CRF-Modell zu trainieren, das Wörter als 'B-SYMP' (Symptom-Beginn), 'I-SYMP' (Symptom-Verlauf), 'B-MED' (Medikament) oder 'O' (Andere) klassifiziert.

Datenaufbereitung

Erstellung eines Trainingsdatensatzes mit medizinischen Sätzen und BIO-Tags.

Kopiert!

1	DATA casuser.med_training; LENGTH word $20 label $10; INPUT seq_id word $ label $; CARDS;
2	1 Patient O
3	1 hat O
4	1 starke B-SYMP
5	1 Kopfschmerzen I-SYMP
6	1 und O
7	1 nimmt O
8	1 Aspirin B-MED
9	2 Kein O
10	2 Fieber B-SYMP
11	; RUN;

Étapes de réalisation

Definition des Feature-Templates für das CRF-Modell.

Kopiert!

1	/* Das Template definiert, wie Merkmale aus den Nachbarwörtern extrahiert werden */
2	%let template_str = %str(type:CRF_PP
3	feature:U00:%x[-1,0]
4	feature:U01:%x[0,0]
5	feature:U02:%x[1,0]
6	feature:B);

Ausführung des Trainings mit dem Standard-Algorithmus (LBFGS).

Kopiert!

1	PROC CAS;
2	conditionalRandomFields.crfTrain /
3	TABLE={name='med_training'}
4	target='label'
5	template="&template_str"
6	model={
7	label={name='med_labels'},
8	attr={name='med_attrs'},
9	feature={name='med_features'},
10	template={name='med_template'}
11	};
12	QUIT;

Erwartetes Ergebnis

Die Aktion wird erfolgreich ausgeführt und generiert die Modelltabellen (Labels, Attribute, Features). Das Modell hat gelernt, den Kontext ('starke' vor 'Kopfschmerzen') zur Klassifizierung zu nutzen.

Voir la documentation technique de crfTrain