langModel

calculateErrorRate

Beschreibung

Berechnet die Fehlerraten von Zeichen, Wörtern und Sätzen durch den Vergleich von Hypothesen- und Referenztranskripten.

langModel.calculateErrorRate / reference={...} table={...} <referenceId="variable-name"> <referenceText="variable-name"> <tableId="variable-name"> <tableText="variable-name">;
Einstellungen
ParameterBeschreibung
referenceGibt die Tabelle an, die die Referenztranskripte enthält.
referenceIdGibt den Namen der Spalte in der Referenztabelle an, die die IDs enthält. Standardmäßig wird angenommen, dass die erste Spalte die IDs enthält.
referenceTextGibt den Namen der Spalte in der Referenztabelle an, die die wahren Wortsequenzen enthält, mit denen die hypothetischen Wortsequenzen verglichen werden sollen. Standardmäßig wird angenommen, dass die zweite Spalte die wahren Wortsequenzen enthält.
tableGibt die Tabelle an, die die Hypothesentranskripte enthält.
tableIdGibt den Namen der Spalte in der Hypothesentabelle an, die die IDs enthält. Standardmäßig wird angenommen, dass die erste Spalte die IDs enthält.
tableTextGibt den Namen der Spalte in der Hypothesentabelle an, die die hypothetischen Wortsequenzen enthält. Standardmäßig wird angenommen, dass die zweite Spalte die hypothetischen Wortsequenzen enthält.
Erstellung von Beispieldaten

Erstellt zwei Tabellen: 'mycas.reference_table' für die Referenztranskripte und 'mycas.hypothesis_table' für die Hypothesentranskripte. Diese Tabellen verwenden die Standardspaltennamen (_ID_ und _TEXT_), die von der Aktion standardmäßig erwartet werden.

Kopiert!
1DATA mycas.reference_table;
2 LENGTH _ID_ $ 10 _TEXT_ $ 100;
3 INFILE DATALINES delimiter=',';
4 INPUT _ID_ $ _TEXT_ $;
5 DATALINES;
6id_001,this is a sample sentence
7id_002,another example for testing
8;
9RUN;
10 
11DATA mycas.hypothesis_table;
12 LENGTH _ID_ $ 10 _TEXT_ $ 100;
13 INFILE DATALINES delimiter=',';
14 INPUT _ID_ $ _TEXT_ $;
15 DATALINES;
16id_001,this is a sample sentense
17id_002,anuther example for testing
18;
19RUN;

Beispiele

Dieses Beispiel berechnet die Wortfehlerrate (WER) durch den Vergleich der 'hypothesis_table' mit der 'reference_table'. Da die Spaltennamen den Standardwerten entsprechen, müssen sie nicht explizit angegeben werden.

SAS® / CAS-Code Code wartet auf Validierung durch die Community
Kopiert!
1PROC CAS;
2 langModel.calculateErrorRate /
3 TABLE='hypothesis_table',
4 reference='reference_table';
5RUN;
Ergebnis :
Die Aktion gibt eine Tabelle zurück, die die Fehlerraten (Wortfehlerrate, Zeichenfehlerrate) für die verglichenen Transkripte zusammenfasst.

Dieses Beispiel zeigt, wie die Fehlerrate berechnet wird, wenn die ID- und Textspalten in den Hypothesen- und Referenztabellen unterschiedliche Namen haben. Die Parameter 'tableId', 'tableText', 'referenceId' und 'referenceText' werden verwendet, um die entsprechenden Spalten zuzuordnen.

SAS® / CAS-Code Code wartet auf Validierung durch die Community
Kopiert!
1/* Erstellen von Referenzdaten mit spezifischen Spaltennamen */
2DATA mycas.ref_data;
3 LENGTH ref_id $ 20 ref_text $ 256;
4 INFILE DATALINES delimiter='|';
5 INPUT ref_id $ ref_text $;
6 DATALINES;
7ref_01|the cat sat on the mat
8ref_02|sas viya is a powerful platform
9;
10RUN;
11 
12/* Erstellen von Hypothesendaten mit Fehlern und spezifischen Spaltennamen */
13DATA mycas.hyp_data;
14 LENGTH hyp_id $ 20 hyp_text $ 256;
15 INFILE DATALINES delimiter='|';
16 INPUT hyp_id $ hyp_text $;
17 DATALINES;
18ref_01|the cat sat on mat
19ref_02|sas viya is powerful platform
20;
21RUN;
22 
23/* Berechnung der Fehlerrate mit Zuordnung der Spalten */
24PROC CAS;
25 langModel.calculateErrorRate /
26 TABLE='hyp_data',
27 reference='ref_data',
28 tableId='hyp_id',
29 tableText='hyp_text',
30 referenceId='ref_id',
31 referenceText='ref_text';
32RUN;
Ergebnis :
Die Ausgabe ist eine Ergebnistabelle, die die Wortfehlerrate (WER), die Satzfehlerrate (SER) sowie die Anzahl der Substitutionen, Löschungen und Einfügungen für jede ID anzeigt. Eine zusammenfassende Tabelle aggregiert diese Metriken über den gesamten Datensatz.

FAQ

Was ist der Zweck der Aktion `calculateErrorRate`?
Welche Eingabetabellen sind für die Aktion `calculateErrorRate` erforderlich?
Wie kann ich die Spalten für IDs und Text in den Eingabetabellen festlegen?
Was ist die Hauptfunktion der `calculateErrorRate`-Aktion im Aktionssatz für Sprachmodelle?