La acción `buildTermIndex` se utiliza para crear una tabla de índice de términos a partir de una tabla de entrada que contiene términos significativos. Esta acción es fundamental en el análisis de búsqueda para preprocesar y estructurar datos textuales, permitiendo un recuento eficiente de la frecuencia de los términos en diferentes campos. Es un paso preparatorio para acciones como `buildAutoComplete` o `searchJoin`.
| Parámetro | Descripción |
|---|---|
| casOut | Especifica la tabla de salida para almacenar la lista de términos generada. |
| fields | Especifica una lista de campos (columnas) en la tabla de entrada donde se debe contar la frecuencia de los términos. Es un parámetro opcional. |
| language | Especifica el idioma que se utilizará para el tokenizador del campo de índice. El valor predeterminado es 'UNIVERSAL'. |
| table | Especifica la tabla de índice de entrada que contiene los términos a procesar. También se puede usar el alias 'index'. |
| tokenize | Especifica si el campo de índice debe ser tokenizado. Si es `TRUE`, el texto se divide en términos individuales. El valor predeterminado es `FALSE`. |
Este código crea una tabla CAS llamada 'terminos_significativos' que contiene una lista de términos y sus frecuencias, que servirá como entrada para la acción `buildTermIndex`.
| 1 | DATA casuser.terminos_significativos; LENGTH term $ 50; INFILE DATALINES delimiter=','; INPUT term $ count; DATALINES; |
| 2 | sas,100 |
| 3 | viya,80 |
| 4 | cas,120 |
| 5 | cloud,90 |
| 6 | analytics,110 |
| 7 | ; RUN; |
Este ejemplo toma la tabla 'terminos_significativos' y crea una tabla de índice de términos llamada 'indice_terminos_salida' utilizando la configuración predeterminada.
| 1 | |
| 2 | PROC CAS; |
| 3 | searchAnalytics.buildTermIndex / TABLE={name='terminos_significativos'}, casOut={name='indice_terminos_salida', replace=true}; |
| 4 | |
| 5 | RUN; |
| 6 | |
| 7 | QUIT; |
| 8 |
Este ejemplo más detallado utiliza una tabla de entrada con múltiples campos de texto ('titulo', 'resumen'). La acción `buildTermIndex` tokeniza el campo 'titulo' en español y cuenta la frecuencia de los términos en ambos campos, 'titulo' y 'resumen', para construir el índice de salida.
| 1 | PROC CAS; DATA casuser.documentos_entrada; LENGTH titulo $100 resumen $200; INFILE DATALINES delimiter='|'; INPUT titulo $ resumen $; DATALINES; |
| 2 | Análisis con SAS Viya|SAS Viya ofrece potentes capacidades de análisis en la nube. |
| 3 | Introducción a CAS|El Cloud Analytic Services (CAS) es el motor de SAS Viya. |
| 4 | Búsqueda y Analítica|La analítica de búsqueda mejora la experiencia del usuario. |
| 5 | ; RUN; searchAnalytics.buildTermIndex / TABLE={name='documentos_entrada'}, fields={'titulo', 'resumen'}, tokenize=true, language='SPANISH', casOut={name='indice_terminos_completo', replace=true}; RUN; QUIT; |
Una empresa de comercio electrónico necesita implementar una barra de búsqueda inteligente en su sitio web. El objetivo es indexar los nombres y descripciones de los productos p...
El equipo de operaciones de TI desea analizar patrones en los logs de sus servidores web. Necesitan generar un índice de términos sobre una gran cantidad de mensajes de error ge...
Una plataforma de soporte al cliente global recibe comentarios en múltiples idiomas, a menudo con caracteres especiales, emojis o campos vacíos. Se requiere verificar si la acci...