Análisis de Influencia en Red Social Masiva (Test de Rendimiento)

Contexto empresarial

Una empresa de telecomunicaciones quiere identificar a los top influencers en una red social masiva para una campaña de marketing. Dado el volumen de datos, se requiere un cálculo aproximado de la intermediación para optimizar tiempos y el uso de procesamiento distribuido.

Preparación de datos

Generación sintética de una red social grande con 10,000 enlaces para probar rendimiento.

¡Copiado!

1	DATA mycas.red_social;
2	DO i = 1 to 10000;
3	from_user = cats('User_', floor(rand('uniform')*1000));
4	to_user = cats('User_', floor(rand('uniform')*1000));
5	IF from_user ne to_user THEN OUTPUT;
6	END;
7	RUN;

Étapes de réalisation

Verificación de recursos disponibles (opcional, conceptual).

¡Copiado!

1	/* Asumimos entorno distribuido disponible */

Ejecución de centrality con muestreo (samplePercent) y multihilo para rendimiento.

¡Copiado!

1	PROC CAS;
2	ACTION network.centrality /
3	links={name="red_social"}
4	direction="DIRECTED"
5	between="UNWEIGHT"
6	samplePercent=15.0
7	nThreads=8
8	distributed=TRUE
9	outNodes={name="top_influencers", replace=true};
10	RUN; QUIT;

Resultado esperado

La acción debe completarse rápidamente gracias al parámetro 'samplePercent' (15%) y 'distributed=TRUE'. La tabla 'top_influencers' contendrá estimaciones de centralidad. El log debe reflejar el uso de múltiples hilos.

Voir la documentation technique de centrality