calculateErrorRate

Q: Was ist der Zweck der Aktion `calculateErrorRate`?

Die Aktion `calculateErrorRate` berechnet die Fehlerraten von Zeichen, Wörtern und Sätzen, indem sie Hypothesen- und Referenztranskripte vergleicht.

Q: Welche Eingabetabellen sind für die Aktion `calculateErrorRate` erforderlich?

Die Aktion erfordert zwei Eingabetabellen: eine Referenztabelle, die durch den Parameter `reference` angegeben wird und die wahren Transkripte enthält, und eine Hypothesentabelle, die durch den Parameter `table` (Alias: `hypothesis`) angegeben wird und die zu vergleichenden Transkripte enthält.

Q: Wie kann ich die Spalten für IDs und Text in den Eingabetabellen festlegen?

Sie können die Spalten für IDs und Text mit den Parametern `referenceId` und `referenceText` für die Referenztabelle sowie `tableId` und `tableText` für die Hypothesentabelle angeben. Wenn diese nicht angegeben werden, geht die Aktion standardmäßig davon aus, dass die erste Spalte die ID und die zweite Spalte der Text ist.

Q: Was ist die Hauptfunktion der `calculateErrorRate`-Aktion im Aktionssatz für Sprachmodelle?

Die Hauptfunktion der `calculateErrorRate`-Aktion besteht darin, die Genauigkeit von Spracherkennungssystemen zu bewerten. Dies geschieht durch den Vergleich der generierten Transkripte (Hypothesen) mit einem korrekten Referenztext und die anschließende Berechnung der Fehlerraten auf Zeichen-, Wort- und Satzebene.

Beschreibung

Berechnet die Fehlerraten von Zeichen, Wörtern und Sätzen durch den Vergleich von Hypothesen- und Referenztranskripten.

langModel.calculateErrorRate / reference={...} table={...} <referenceId="variable-name"> <referenceText="variable-name"> <tableId="variable-name"> <tableText="variable-name">;

Einstellungen

Parameter	Beschreibung
reference	Gibt die Tabelle an, die die Referenztranskripte enthält.
referenceId	Gibt den Namen der Spalte in der Referenztabelle an, die die IDs enthält. Standardmäßig wird angenommen, dass die erste Spalte die IDs enthält.
referenceText	Gibt den Namen der Spalte in der Referenztabelle an, die die wahren Wortsequenzen enthält, mit denen die hypothetischen Wortsequenzen verglichen werden sollen. Standardmäßig wird angenommen, dass die zweite Spalte die wahren Wortsequenzen enthält.
table	Gibt die Tabelle an, die die Hypothesentranskripte enthält.
tableId	Gibt den Namen der Spalte in der Hypothesentabelle an, die die IDs enthält. Standardmäßig wird angenommen, dass die erste Spalte die IDs enthält.
tableText	Gibt den Namen der Spalte in der Hypothesentabelle an, die die hypothetischen Wortsequenzen enthält. Standardmäßig wird angenommen, dass die zweite Spalte die hypothetischen Wortsequenzen enthält.

Datenaufbereitung Datenaufbereitungsblatt ansehen

Erstellung von Beispieldaten

Erstellt zwei Tabellen: 'mycas.reference_table' für die Referenztranskripte und 'mycas.hypothesis_table' für die Hypothesentranskripte. Diese Tabellen verwenden die Standardspaltennamen (_ID_ und _TEXT_), die von der Aktion standardmäßig erwartet werden.

Kopiert!

1	DATA mycas.reference_table;
2	LENGTH _ID_ $ 10 _TEXT_ $ 100;
3	INFILE DATALINES delimiter=',';
4	INPUT _ID_ $ _TEXT_ $;
5	DATALINES;
6	id_001,this is a sample sentence
7	id_002,another example for testing
8	;
9	RUN;
10
11	DATA mycas.hypothesis_table;
12	LENGTH _ID_ $ 10 _TEXT_ $ 100;
13	INFILE DATALINES delimiter=',';
14	INPUT _ID_ $ _TEXT_ $;
15	DATALINES;
16	id_001,this is a sample sentense
17	id_002,anuther example for testing
18	;
19	RUN;

Beispiele

Dieses Beispiel berechnet die Wortfehlerrate (WER) durch den Vergleich der 'hypothesis_table' mit der 'reference_table'. Da die Spaltennamen den Standardwerten entsprechen, müssen sie nicht explizit angegeben werden.

SAS® / CAS-Code Code wartet auf Validierung durch die Community

Kopiert!

1	PROC CAS;
2	langModel.calculateErrorRate /
3	TABLE='hypothesis_table',
4	reference='reference_table';
5	RUN;

Ergebnis :
Die Aktion gibt eine Tabelle zurück, die die Fehlerraten (Wortfehlerrate, Zeichenfehlerrate) für die verglichenen Transkripte zusammenfasst.

Dieses Beispiel zeigt, wie die Fehlerrate berechnet wird, wenn die ID- und Textspalten in den Hypothesen- und Referenztabellen unterschiedliche Namen haben. Die Parameter 'tableId', 'tableText', 'referenceId' und 'referenceText' werden verwendet, um die entsprechenden Spalten zuzuordnen.

SAS® / CAS-Code Code wartet auf Validierung durch die Community

Kopiert!

1	/* Erstellen von Referenzdaten mit spezifischen Spaltennamen */
2	DATA mycas.ref_data;
3	LENGTH ref_id $ 20 ref_text $ 256;
4	INFILE DATALINES delimiter='\|';
5	INPUT ref_id $ ref_text $;
6	DATALINES;
7	ref_01\|the cat sat on the mat
8	ref_02\|sas viya is a powerful platform
9	;
10	RUN;
11
12	/* Erstellen von Hypothesendaten mit Fehlern und spezifischen Spaltennamen */
13	DATA mycas.hyp_data;
14	LENGTH hyp_id $ 20 hyp_text $ 256;
15	INFILE DATALINES delimiter='\|';
16	INPUT hyp_id $ hyp_text $;
17	DATALINES;
18	ref_01\|the cat sat on mat
19	ref_02\|sas viya is powerful platform
20	;
21	RUN;
22
23	/* Berechnung der Fehlerrate mit Zuordnung der Spalten */
24	PROC CAS;
25	langModel.calculateErrorRate /
26	TABLE='hyp_data',
27	reference='ref_data',
28	tableId='hyp_id',
29	tableText='hyp_text',
30	referenceId='ref_id',
31	referenceText='ref_text';
32	RUN;

Ergebnis :
Die Ausgabe ist eine Ergebnistabelle, die die Wortfehlerrate (WER), die Satzfehlerrate (SER) sowie die Anzahl der Substitutionen, Löschungen und Einfügungen für jede ID anzeigt. Eine zusammenfassende Tabelle aggregiert diese Metriken über den gesamten Datensatz.

FAQ

Was ist der Zweck der Aktion `calculateErrorRate`?

Welche Eingabetabellen sind für die Aktion `calculateErrorRate` erforderlich?

Wie kann ich die Spalten für IDs und Text in den Eingabetabellen festlegen?

Was ist die Hauptfunktion der `calculateErrorRate`-Aktion im Aktionssatz für Sprachmodelle?

Zugehörige Szenarien

Anwendungsfall

Validierung von Callcenter-Transkriptionen

Eine Bank möchte die Qualität ihres neuen Speech-to-Text-Systems für Kundenanrufe bewerten. Da die Daten aus verschiedenen Altsystemen stammen, unterscheiden sich die Spaltennam...

Szenario anzeigen

Anwendungsfall

Robustheitstest bei fehlenden Zuordnungen und Leewerten

In einem medizinischen Prozess werden Audioclips asynchron verarbeitet. Es kommt vor, dass für manche Referenzen noch keine Hypothese vorliegt oder umgekehrt. Der Test prüft, wi...

Szenario anzeigen

Anwendungsfall

Analyse der Case-Sensitivity bei juristischen Texten

Ein juristischer Verlag prüft die Digitalisierung alter Gesetze. Groß- und Kleinschreibung kann bedeutungsunterscheidend sein (z.B. 'sie' vs 'Sie'). Dieser Test forciert Untersc...

Szenario anzeigen

Actions associées

langModel

IdentifySpeakers

Die Aktion "IdentifySpeakers" wird verwendet, um Sprecher in Audiodaten zu id...

langModel

lmDecode

Dekodiert die Scores eines rekurrenten neuronalen Netzwerks (RNN) unter Verwe...

langModel

lmImport

Importiert ein n-Gramm-Sprachmodell in eine CAS-Tabelle. Diese Aktion ist ent...

Inhaltsverzeichnis

Beschreibung

Erstellung von Beispieldaten

Beispiele

Einfache Berechnung der Fehlerrate

Detailliertes Beispiel mit spezifischen Spaltennamen

FAQ

Zugehörige Szenarien

Anwendungsfall

Validierung von Callcenter-Transkriptionen

Anwendungsfall

Robustheitstest bei fehlenden Zuordnungen und Leewerten

Anwendungsfall

Analyse der Case-Sensitivity bei juristischen Texten

Actions associées

IdentifySpeakers

lmDecode

lmImport