searchAnalytics buildTermIndex

Performance : Indexation de Codes d'Erreur (Volume Élevé)

Scénario de test & Cas d'usage

Contexte Métier

Une équipe de maintenance industrielle souhaite indexer des millions de codes d'erreur générés par des machines IoT pour permettre une recherche rapide par les techniciens. Le test vérifie la capacité de l'action à traiter un grand volume de termes techniques sans tokenisation complexe (codes alphanumériques).
À propos du Set : searchAnalytics

Indexation de données et fonctionnalités de recherche.

Découvrir toutes les actions de searchAnalytics
Préparation des Données

Génération simulée de 50 000 codes d'erreurs uniques (ex: ERR_0001, WARN_9999).

Copié !
1 
2DATA casuser.iot_logs;
3LENGTH _term_ $32;
4DO i=1 to 50000;
5IF mod(i, 10) = 0 THEN prefix='CRIT';
6ELSE prefix='WARN';
7_term_ = catx('_', prefix, put(i, z6.));
8OUTPUT;
9END;
10 
11RUN;
12 

Étapes de réalisation

1
Vérification de la volumétrie des données
Copié !
1 
2PROC CAS;
3TABLE.recordCount / TABLE={name='iot_logs', caslib='casuser'};
4 
5RUN;
6 
2
Indexation rapide sans tokenisation (Universal)
Copié !
1 
2PROC CAS;
3searchAnalytics.buildTermIndex / TABLE={name='iot_logs', caslib='casuser'} casOut={name='index_logs_rapid', caslib='casuser', replace=true} tokenize=false language='UNIVERSAL';
4 
5RUN;
6 

Résultat Attendu


L'action s'exécute rapidement malgré le volume. La table de sortie 'index_logs_rapid' contient les 50 000 entrées intactes, car la tokenisation est désactivée (traitement brut des chaînes).