optNetwork connectedComponents

Analyse sozialer Interaktionen mit Datenqualitätsproblemen (Edge Case)

Scénario de test & Cas d'usage

Geschäftskontext

Ein soziales Netzwerk analysiert 'Follower'-Beziehungen. Die Daten sind 'schmutzig': Es gibt Eigenreferenzen (Nutzer folgt sich selbst), doppelte Einträge und es ist ein gerichteter Graph (A folgt B heißt nicht, dass B A folgt). Wir suchen nach 'Schwach Zusammenhängenden Komponenten' trotz Datenrauschen.
Über das Set : optNetwork

Netzwerkanalyse und Graphenalgorithmen.

Entdecken Sie alle Aktionen von optNetwork
Datenaufbereitung

Erstellung von Daten mit Eigenreferenzen (Self-Links) und Mehrfachnennungen (Multi-Links).

Kopiert!
1 
2DATA mycas.social_graph;
3INPUT user_a $ user_b $;
4DATALINES;
5UserA UserB UserA UserB UserB UserC UserC UserC UserD UserE ;
6 
7RUN;
8 

Étapes de réalisation

1
Ausführung mit expliziter Behandlung von Self-Links und Multi-Links im gerichteten Modus (DFS)
Kopiert!
1 
2PROC CAS;
3ACTION optNetwork.connectedComponents / links={name="social_graph"} direction="DIRECTED" selfLinks=TRUE multiLinks=TRUE algorithm="DFS" outNodes={name="SocialComponents", replace=true};
4 
5RUN;
6 

Erwartetes Ergebnis


Die Aktion darf nicht aufgrund der Duplikate (UserA->UserB zweimal) oder des Self-Links (UserC->UserC) abstürzen. UserA, UserB und UserC sollten eine Komponente bilden (abhängig von der Definition schwach/stark im DFS). UserD und UserE bilden eine eigene. Die Optionen `selfLinks` und `multiLinks` sorgen für eine korrekte Verarbeitung des 'Rauschens'.