crfTrain - WeAreCAS

Q: ¿Qué especifica el parámetro `table` en la acción crfTrain?

El parámetro `table` es obligatorio y especifica la tabla de CAS que contiene los datos de entrada para el entrenamiento del modelo.

Q: ¿Para qué se utiliza el parámetro `target`?

El parámetro `target` es obligatorio y se utiliza para especificar el nombre de la variable predicha u oculta en la tabla de entrada.

Q: ¿Qué función tiene el parámetro `template`?

El parámetro `template` es obligatorio y especifica la plantilla textual que se utilizará para extraer características (features) de los datos de entrada.

Q: ¿Qué tablas de modelado de salida se pueden especificar con el parámetro `model`?

El parámetro `model` especifica las tablas de modelado de salida. Incluye sub-parámetros para definir las tablas de atributos (`attr`), mapeo de atributos a características (`attrfeature`), características (`feature`), etiquetas (`label`) y plantillas (`template`).

Q: ¿Qué son los `nloOpts` y qué solucionador de optimización se usa por defecto?

El parámetro `nloOpts` se utiliza para especificar los parámetros del optimizador no lineal (OPTML). Por defecto, la acción `crfTrain` utiliza el solucionador L-BFGS (limited-memory Broyden-Fletcher-Goldfarb-Shanno).

Q: ¿Qué algoritmos de optimización se pueden especificar con el parámetro `algorithm` dentro de `nloOpts`?

Se pueden especificar los siguientes solucionadores: 'ADAM' (Adaptive Moments), 'HF' (Hessian Free, experimental), 'LBFGS' (por defecto) y 'SGD' (Stochastic Gradient Descent).

Q: ¿Cómo se puede regular el modelo para evitar el sobreajuste (overfitting)?

Se pueden utilizar los parámetros de regularización L1 (`regL1`) y L2 (`regL2`) dentro de las opciones de `optmlOpt` en `nloOpts`. Ambos deben ser valores no negativos.

Q: ¿Es posible guardar el estado de las iteraciones durante el entrenamiento?

Sí, el sub-parámetro `state` dentro de `nloOpts` permite guardar el estado. Se puede especificar una tabla de salida con el parámetro `table` anidado y la frecuencia de guardado con `checkpointFreq`.

Descripción

La acción `crfTrain` se utiliza para entrenar un modelo de Campos Aleatorios Condicionales (CRF). Los CRF son una clase de método de modelado estadístico que a menudo se aplica en el reconocimiento de patrones y el aprendizaje automático, y se utilizan para la predicción estructurada. A diferencia de los clasificadores discretos, los CRF pueden tener en cuenta el contexto, lo que los hace muy adecuados para tareas de etiquetado de secuencias como el reconocimiento de entidades nombradas.

conditionalRandomFields.crfTrain / model={<crfmodelout>}, nloOpts={<casOptml>}, table={<castable>}, target="string", template="string";

Parámetros

Parámetro	Descripción
model	Especifica las tablas de modelado de salida.
nloOpts	Especifica los parámetros de optimización no lineal (OPTML).
table	Especifica la tabla CAS que contiene los datos de entrada para el entrenamiento.
target	Especifica el nombre de la variable predicha/oculta en la tabla de entrada.
template	Especifica la plantilla textual utilizada para extraer características del texto.

Preparación de datos Ver hoja de preparación de datos

Creación de Datos de Entrenamiento

Este bloque de código crea una tabla CAS simple llamada 'train_data'. Esta tabla contiene tokens y sus etiquetas correspondientes, que se utilizarán para entrenar el modelo CRF para el reconocimiento de entidades nombradas (NER).

¡Copiado!

1	DATA mycas.train_data;
2	LENGTH token $20 label $10;
3	INFILE DATALINES dlm='\|';
4	INPUT token $ label $;
5	DATALINES;
6	John\|B-PER
7	Smith\|I-PER
8	lives\|O
9	in\|O
10	New\|B-LOC
11	York\|I-LOC
12	;
13	RUN;

Ejemplos

Este ejemplo muestra cómo entrenar un modelo CRF con los parámetros mínimos requeridos. Utiliza la tabla 'train_data', define la columna 'label' como el objetivo y especifica una plantilla de características simple. El modelo entrenado se guarda en un conjunto de tablas con el prefijo 'crf_model'.

Código SAS® / CAS Código en espera de validación por la comunidad

¡Copiado!

1	PROC CAS;
2	conditionalRandomFields.crfTrain /
3	TABLE={name='train_data'},
4	target='label',
5	template='U00:%w[0,0]',
6	model={name='crf_model', replace=true};
7	RUN;

Resultado :
La acción entrena el modelo CRF. Se crean varias tablas de salida en la caslib activa (por ejemplo, 'crf_model_attr', 'crf_model_feature') que contienen los componentes del modelo entrenado. El registro de SAS mostrará el progreso y la finalización del entrenamiento.

Este ejemplo entrena un modelo CRF utilizando una plantilla de características más compleja que incluye unigramas y bigramas. También especifica opciones para el optimizador L-BFGS, estableciendo parámetros de regularización L1 y L2 y un número máximo de iteraciones. Los nombres de las tablas del modelo de salida se definen explícitamente.

Código SAS® / CAS Código en espera de validación por la comunidad

¡Copiado!

1	PROC CAS;
2	conditionalRandomFields.crfTrain /
3	TABLE={name='train_data'},
4	target='label',
5	template='U00:%w[0,0]
6	U01:%w[0,1]
7	B',
8	model={
9	attr={name='crf_model_attr', replace=true},
10	feature={name='crf_model_feature', replace=true},
11	label={name='crf_model_label', replace=true},
12	attrfeature={name='crf_model_attrfeature', replace=true},
13	template={name='crf_model_template', replace=true}
14	},
15	nloOpts={
16	algorithm='LBFGS',
17	optmlOpt={regL1=0.1, regL2=0.05, maxIters=50}
18	};
19	RUN;

Resultado :
El modelo se entrena utilizando el optimizador L-BFGS con los parámetros de regularización y el límite de iteraciones especificados. Las tablas del modelo se crean con los nombres definidos. El registro de SAS mostrará los detalles de las iteraciones de optimización, reflejando la configuración personalizada.

FAQ

¿Cuál es el propósito de la acción crfTrain en SAS Viya?

¿Qué especifica el parámetro `table` en la acción crfTrain?

¿Para qué se utiliza el parámetro `target`?

¿Qué función tiene el parámetro `template`?

¿Qué tablas de modelado de salida se pueden especificar con el parámetro `model`?

¿Qué son los `nloOpts` y qué solucionador de optimización se usa por defecto?

¿Qué algoritmos de optimización se pueden especificar con el parámetro `algorithm` dentro de `nloOpts`?

¿Cómo se puede regular el modelo para evitar el sobreajuste (overfitting)?

¿Es posible guardar el estado de las iteraciones durante el entrenamiento?

Escenarios asociados

Caso de uso

Extracción de Entidades en Contratos Legales

Un bufete de abogados desea automatizar la revisión de miles de contratos PDF digitalizados. El objetivo es identificar y extraer automáticamente entidades clave como 'Nombre de...

Ver escenario

Caso de uso

Análisis de Logs de Ciberseguridad a Gran Escala

Un centro de operaciones de seguridad (SOC) recibe millones de líneas de logs por hora. Necesitan entrenar un modelo robusto para detectar patrones de ataque en secuencias de co...

Ver escenario

Caso de uso

Análisis de Sentimiento en Redes Sociales con Datos Sucios

Una agencia de marketing analiza comentarios en redes sociales. Los datos están 'sucios': contienen emojis, caracteres especiales, y algunos tokens perdieron su etiqueta durante...

Ver escenario

Actions associées

conditionalRandomFields

crfScore

Puntúa documentos contra un modelo de Campos Aleatorios Condicionales (CRF). ...

Tabla de contenidos

Descripción

Creación de Datos de Entrenamiento

Ejemplos

Entrenamiento Básico de un Modelo CRF

Entrenamiento de CRF con Opciones de Optimización y Plantilla Detallada

FAQ

Escenarios asociados

Caso de uso

Extracción de Entidades en Contratos Legales

Caso de uso

Análisis de Logs de Ciberseguridad a Gran Escala

Caso de uso

Análisis de Sentimiento en Redes Sociales con Datos Sucios

Actions associées

crfScore