Scénario de test & Cas d'usage
Erstellung eines Trainingsdatensatzes mit medizinischen Sätzen und BIO-Tags.
| 1 | DATA casuser.med_training; LENGTH word $20 label $10; INPUT seq_id word $ label $; CARDS; |
| 2 | 1 Patient O |
| 3 | 1 hat O |
| 4 | 1 starke B-SYMP |
| 5 | 1 Kopfschmerzen I-SYMP |
| 6 | 1 und O |
| 7 | 1 nimmt O |
| 8 | 1 Aspirin B-MED |
| 9 | 2 Kein O |
| 10 | 2 Fieber B-SYMP |
| 11 | ; RUN; |
| 1 | /* Das Template definiert, wie Merkmale aus den Nachbarwörtern extrahiert werden */ |
| 2 | %let template_str = %str(type:CRF_PP |
| 3 | feature:U00:%x[-1,0] |
| 4 | feature:U01:%x[0,0] |
| 5 | feature:U02:%x[1,0] |
| 6 | feature:B); |
| 1 | PROC CAS; |
| 2 | conditionalRandomFields.crfTrain / |
| 3 | TABLE={name='med_training'} |
| 4 | target='label' |
| 5 | template="&template_str" |
| 6 | model={ |
| 7 | label={name='med_labels'}, |
| 8 | attr={name='med_attrs'}, |
| 9 | feature={name='med_features'}, |
| 10 | template={name='med_template'} |
| 11 | }; |
| 12 | QUIT; |
Die Aktion wird erfolgreich ausgeführt und generiert die Modelltabellen (Labels, Attribute, Features). Das Modell hat gelernt, den Kontext ('starke' vor 'Kopfschmerzen') zur Klassifizierung zu nutzen.