Berechnet die Fehlerraten von Zeichen, Wörtern und Sätzen durch den Vergleich von Hypothesen- und Referenztranskripten.
| Parameter | Beschreibung |
|---|---|
| reference | Gibt die Tabelle an, die die Referenztranskripte enthält. |
| referenceId | Gibt den Namen der Spalte in der Referenztabelle an, die die IDs enthält. Standardmäßig wird angenommen, dass die erste Spalte die IDs enthält. |
| referenceText | Gibt den Namen der Spalte in der Referenztabelle an, die die wahren Wortsequenzen enthält, mit denen die hypothetischen Wortsequenzen verglichen werden sollen. Standardmäßig wird angenommen, dass die zweite Spalte die wahren Wortsequenzen enthält. |
| table | Gibt die Tabelle an, die die Hypothesentranskripte enthält. |
| tableId | Gibt den Namen der Spalte in der Hypothesentabelle an, die die IDs enthält. Standardmäßig wird angenommen, dass die erste Spalte die IDs enthält. |
| tableText | Gibt den Namen der Spalte in der Hypothesentabelle an, die die hypothetischen Wortsequenzen enthält. Standardmäßig wird angenommen, dass die zweite Spalte die hypothetischen Wortsequenzen enthält. |
Erstellt zwei Tabellen: 'mycas.reference_table' für die Referenztranskripte und 'mycas.hypothesis_table' für die Hypothesentranskripte. Diese Tabellen verwenden die Standardspaltennamen (_ID_ und _TEXT_), die von der Aktion standardmäßig erwartet werden.
| 1 | DATA mycas.reference_table; |
| 2 | LENGTH _ID_ $ 10 _TEXT_ $ 100; |
| 3 | INFILE DATALINES delimiter=','; |
| 4 | INPUT _ID_ $ _TEXT_ $; |
| 5 | DATALINES; |
| 6 | id_001,this is a sample sentence |
| 7 | id_002,another example for testing |
| 8 | ; |
| 9 | RUN; |
| 10 | |
| 11 | DATA mycas.hypothesis_table; |
| 12 | LENGTH _ID_ $ 10 _TEXT_ $ 100; |
| 13 | INFILE DATALINES delimiter=','; |
| 14 | INPUT _ID_ $ _TEXT_ $; |
| 15 | DATALINES; |
| 16 | id_001,this is a sample sentense |
| 17 | id_002,anuther example for testing |
| 18 | ; |
| 19 | RUN; |
Dieses Beispiel berechnet die Wortfehlerrate (WER) durch den Vergleich der 'hypothesis_table' mit der 'reference_table'. Da die Spaltennamen den Standardwerten entsprechen, müssen sie nicht explizit angegeben werden.
| 1 | PROC CAS; |
| 2 | langModel.calculateErrorRate / |
| 3 | TABLE='hypothesis_table', |
| 4 | reference='reference_table'; |
| 5 | RUN; |
Dieses Beispiel zeigt, wie die Fehlerrate berechnet wird, wenn die ID- und Textspalten in den Hypothesen- und Referenztabellen unterschiedliche Namen haben. Die Parameter 'tableId', 'tableText', 'referenceId' und 'referenceText' werden verwendet, um die entsprechenden Spalten zuzuordnen.
| 1 | /* Erstellen von Referenzdaten mit spezifischen Spaltennamen */ |
| 2 | DATA mycas.ref_data; |
| 3 | LENGTH ref_id $ 20 ref_text $ 256; |
| 4 | INFILE DATALINES delimiter='|'; |
| 5 | INPUT ref_id $ ref_text $; |
| 6 | DATALINES; |
| 7 | ref_01|the cat sat on the mat |
| 8 | ref_02|sas viya is a powerful platform |
| 9 | ; |
| 10 | RUN; |
| 11 | |
| 12 | /* Erstellen von Hypothesendaten mit Fehlern und spezifischen Spaltennamen */ |
| 13 | DATA mycas.hyp_data; |
| 14 | LENGTH hyp_id $ 20 hyp_text $ 256; |
| 15 | INFILE DATALINES delimiter='|'; |
| 16 | INPUT hyp_id $ hyp_text $; |
| 17 | DATALINES; |
| 18 | ref_01|the cat sat on mat |
| 19 | ref_02|sas viya is powerful platform |
| 20 | ; |
| 21 | RUN; |
| 22 | |
| 23 | /* Berechnung der Fehlerrate mit Zuordnung der Spalten */ |
| 24 | PROC CAS; |
| 25 | langModel.calculateErrorRate / |
| 26 | TABLE='hyp_data', |
| 27 | reference='ref_data', |
| 28 | tableId='hyp_id', |
| 29 | tableText='hyp_text', |
| 30 | referenceId='ref_id', |
| 31 | referenceText='ref_text'; |
| 32 | RUN; |