textRuleDevelop compileConcept

Procesamiento de Logs en Idioma Asiático con Tokenizador Básico

Scénario de test & Cas d'usage

Contexto empresarial

Una empresa de logística opera en China y Japón. Necesitan extraer códigos de error y ubicaciones de logs de servidores que mezclan caracteres CJK (Chino, Japonés, Coreano) con códigos alfanuméricos. El tokenizador estándar falla al separar ciertos códigos técnicos, por lo que se requiere el tokenizador 'BASIC'.
Preparación de datos

Definición de reglas para ubicaciones asiáticas y códigos de error.

¡Copiado!
1DATA casuser.reglas_logistica; LENGTH rule_id $20 config $300; INPUT rule_id $ config &; DATALINES;
21 CONCEPT:UBICACION
32 REGEX:(Shanghai|Tokyo|Seoul)
43 CONCEPT:ERROR_CODE
54 REGEX:ERR-[0-9]+
6;
7RUN;

Étapes de réalisation

1
Configuración específica para idioma Chino usando el tokenizador BASIC para mejor segmentación de caracteres especiales.
¡Copiado!
1PROC CAS;
2 textRuleDevelop.compileConcept /
3 TABLE={name='reglas_logistica', caslib='casuser'}
4 config='config'
5 ruleId='rule_id'
6 language='CHINESE'
7 tokenizer='BASIC'
8 casOut={name='modelo_logistica_cjk', caslib='casuser', replace=TRUE};
9RUN;

Resultado esperado


El modelo 'modelo_logistica_cjk' se compila correctamente utilizando la estrategia de tokenización basada en espacios y puntuación (BASIC), lo cual es crítico para que las expresiones regulares de los códigos de error (ERR-123) coincidan correctamente en textos mixtos.