Procesamiento de Logs en Idioma Asiático con Tokenizador Básico

Contexto empresarial

Una empresa de logística opera en China y Japón. Necesitan extraer códigos de error y ubicaciones de logs de servidores que mezclan caracteres CJK (Chino, Japonés, Coreano) con códigos alfanuméricos. El tokenizador estándar falla al separar ciertos códigos técnicos, por lo que se requiere el tokenizador 'BASIC'.

Preparación de datos

Definición de reglas para ubicaciones asiáticas y códigos de error.

¡Copiado!

1	DATA casuser.reglas_logistica; LENGTH rule_id $20 config $300; INPUT rule_id $ config &; DATALINES;
2	1 CONCEPT:UBICACION
3	2 REGEX:(Shanghai\|Tokyo\|Seoul)
4	3 CONCEPT:ERROR_CODE
5	4 REGEX:ERR-[0-9]+
6	;
7	RUN;

Étapes de réalisation

Configuración específica para idioma Chino usando el tokenizador BASIC para mejor segmentación de caracteres especiales.

¡Copiado!

1	PROC CAS;
2	textRuleDevelop.compileConcept /
3	TABLE={name='reglas_logistica', caslib='casuser'}
4	config='config'
5	ruleId='rule_id'
6	language='CHINESE'
7	tokenizer='BASIC'
8	casOut={name='modelo_logistica_cjk', caslib='casuser', replace=TRUE};
9	RUN;

Resultado esperado

El modelo 'modelo_logistica_cjk' se compila correctamente utilizando la estrategia de tokenización basada en espacios y puntuación (BASIC), lo cual es crítico para que las expresiones regulares de los códigos de error (ERR-123) coincidan correctamente en textos mixtos.

Voir la documentation technique de compileConcept