bart bartGauss

Análisis de Rendimiento de Sensores en un Entorno de Big Data

Scénario de test & Cas d'usage

Contexto empresarial

Una planta de fabricación recopila millones de lecturas de sensores por hora para predecir la degradación de una pieza clave. Se necesita un modelo que pueda entrenarse eficientemente en un gran volumen de datos distribuidos en un clúster CAS para permitir un mantenimiento predictivo casi en tiempo real.
Sobre el conjunto : bart

Modelos de árboles de regresión aditiva bayesiana.

Descubrir todas las acciones de bart
Preparación de datos

Genera una tabla de gran volumen (2 millones de registros) que simula lecturas de sensores (temperatura, presión, vibración) y una métrica de degradación.

¡Copiado!
1DATA mycas.sensores_planta(promote=yes);
2 call streaminit(1337);
3 DO i = 1 to 2000000;
4 temperatura = 80 + rand('NORMAL', 5, 2.5);
5 presion = 1000 + rand('NORMAL', 50, 10);
6 vibracion = 0.5 + rand('UNIFORM') * 2;
7 horas_operacion = i / 1000;
8 degradacion = 0.01 * horas_operacion + 0.005 * temperatura + 0.002 * presion + 0.1 * vibracion**2 + rand('NORMAL', 0, 0.1);
9 OUTPUT;
10 END;
11RUN;

Étapes de réalisation

1
Carga de la tabla de sensores en CAS (ya creada como tabla promovida).
¡Copiado!
1PROC CASUTIL;
2 list tables;
3QUIT;
2
Entrenamiento del modelo BART en modo distribuido, dividiendo las cadenas MCMC entre los nodos del clúster para acelerar el cálculo. Se establece un tiempo máximo de entrenamiento.
¡Copiado!
1PROC CAS;
2 bart.bartGauss /
3 TABLE={name='sensores_planta'},
4 target='degradacion',
5 inputs={'temperatura', 'presion', 'vibracion', 'horas_operacion'},
6 nTree=100,
7 nBI=500,
8 nMCDist=1000,
9 distributeChains=4,
10 maxTrainTime=600,
11 seed=555,
12 OUTPUT={casout={name='predicciones_sensores', replace=true}, copyvars='ALL'};
13RUN;
14QUIT;

Resultado esperado


El modelo se entrena en un tiempo razonable (menos de 10 minutos) gracias al procesamiento distribuido ('distributeChains'). La acción produce una tabla de salida 'predicciones_sensores' con las predicciones para cada lectura. El rendimiento demuestra la capacidad de la acción para manejar grandes volúmenes de datos.