conditionalRandomFields crfTrain

Validierung komplexer Templates und Vollständigkeit der Modellartefakte

Scénario de test & Cas d'usage

Geschäftskontext

Ein Linguistik-Forschungsinstitut entwickelt ein Modell für eine seltene Sprache, das komplexe morphologische Regeln beachtet. Der Test soll sicherstellen, dass spezifische, komplexe Templates korrekt geparst werden und alle zugehörigen Modell-Komponenten (Attribute, Merkmale, Attribut-Merkmal-Zuordnungen) korrekt in die CAS-Bibliothek geschrieben werden.
Datenaufbereitung

Erstellung von Daten mit vielfältigen lexikalischen Mustern.

Kopiert!
1DATA casuser.linguistic_data; LENGTH morph $20 pos $5; INPUT id morph $ pos $; CARDS;
21 ge-lauf-en VVPP
31 das ART
41 Haus NN
52 ge-seh-en VVPP
62 der ART
72 Mann NN
8; RUN;

Étapes de réalisation

1
Verwendung eines komplexen Templates, das Suffixe und Präfixe berücksichtigt.
Kopiert!
1/* Template prüft aktuelles Wort, Wort davor und danach */
2%let complex_template = %str(type:CRF_PP
3feature:U01:%x[0,0]
4feature:U02:%x[-1,0]
5feature:U03:%x[1,0]
6feature:B);
2
Training und explizite Anforderung aller Modell-Teiltabellen.
Kopiert!
1PROC CAS;
2 conditionalRandomFields.crfTrain /
3 TABLE={name='linguistic_data'}
4 target='pos'
5 template="&complex_template"
6 model={
7 label={name='model_labels'},
8 attr={name='model_attrs'},
9 feature={name='model_features'},
10 attrfeature={name='model_attr_feat'},
11 template={name='model_template_out'}
12 };
13QUIT;
3
Überprüfung der erzeugten Tabellen.
Kopiert!
1 
2PROC CAS;
3TABLE.tableInfo / caslib='casuser' wild='model_*';
4QUIT;
5 

Erwartetes Ergebnis


Alle 5 angeforderten Modelltabellen (labels, attrs, features, attrfeature, template_out) werden in der Caslib erstellt. Die Tabelle 'model_template_out' enthält die geparste Version des komplexen Eingabe-Templates.