Calcula las tasas de error de caracteres, palabras y frases comparando las transcripciones de hipótesis y de referencia. Esta acción es fundamental para evaluar el rendimiento de los modelos de voz a texto (Speech-to-Text).
| Parámetro | Descripción |
|---|---|
| reference | Especifica la tabla que contiene las transcripciones de referencia (la verdad fundamental). |
| table | Especifica la tabla que contiene las transcripciones de hipótesis (el resultado del modelo). |
| referenceId | Especifica el nombre de la columna en la tabla de referencia que contiene los identificadores. Por defecto, se asume que es la primera columna. |
| referenceText | Especifica el nombre de la columna en la tabla de referencia que contiene las secuencias de palabras verdaderas. Por defecto, se asume que es la segunda columna. |
| tableId | Especifica el nombre de la columna en la tabla de hipótesis que contiene los identificadores. Por defecto, se asume que es la primera columna. |
| tableText | Especifica el nombre de la columna en la tabla de hipótesis que contiene las secuencias de palabras hipotéticas. Por defecto, se asume que es la segunda columna. |
Se crean dos tablas en la caslib 'casuser': 'ref_data' para las transcripciones de referencia (la verdad) y 'hyp_data' para las transcripciones de hipótesis (la predicción del modelo). Cada tabla contiene un identificador único y el texto asociado para la comparación.
| 1 | DATA casuser.ref_data; LENGTH id $ 10 text $ 100; INFILE DATALINES delimiter=','; INPUT id $ text $; DATALINES; |
| 2 | id1,this is a sample |
| 3 | id2,another example here |
| 4 | ; RUN; |
| 5 | DATA casuser.hyp_data; LENGTH id $ 10 text $ 100; INFILE DATALINES delimiter=','; INPUT id $ text $; DATALINES; |
| 6 | id1,this is sample |
| 7 | id2,an other example here |
| 8 | ; RUN; |
Este ejemplo realiza un cálculo simple de la tasa de error comparando todas las filas de la tabla de hipótesis ('hyp_data') con la tabla de referencia ('ref_data').
| 1 | |
| 2 | PROC CAS; |
| 3 | langmodel.calculateErrorRate / TABLE={name='hyp_data', caslib='casuser'} reference={name='ref_data', caslib='casuser'}; |
| 4 | |
| 5 | RUN; |
| 6 |
Este ejemplo especifica explícitamente las columnas a utilizar para los identificadores y el texto en ambas tablas, 'hypothesis' y 'reference', asegurando una correspondencia correcta incluso si el orden de las columnas no es el predeterminado.
| 1 | |
| 2 | PROC CAS; |
| 3 | langmodel.calculateErrorRate / TABLE={name='hyp_data', caslib='casuser'} reference={name='ref_data', caslib='casuser'} tableId='id' tableText='text' referenceId='id' referenceText='text'; |
| 4 | |
| 5 | RUN; |
| 6 |