Performance-Test: Stimmungsanalyse bei hohem Datenvolumen

Geschäftskontext

Eine E-Commerce-Plattform möchte Produktbewertungen analysieren, um automatisch positive und negative Stimmungen zu erkennen. Aufgrund der riesigen Menge an Bewertungen (simuliert 100.000 Dokumente) muss die Aktion unter Last getestet werden, um sicherzustellen, dass sie effizient skaliert und Speicherressourcen korrekt verwaltet.

Über das Set : boolRule

Extraktion boolescher Regeln zur Klassifikation.

Entdecken Sie alle Aktionen von boolRule

Datenaufbereitung

Generierung eines großen Datensatzes mit simulierten Bewertungen und Begriffen.

Kopiert!

1
2	DATA mycas.big_reviews_terms;
3	DO i=1 to 100000;
4	DO j=1 to 5;
5	docid=i;
6	termid=int(rand('uniform')*1000);
7	OUTPUT;
8	END;
9	END;
10
11	RUN;
12	DATA mycas.big_reviews_info;
13	DO i=1 to 100000;
14	docid=i;
15	IF rand('uniform') > 0.5 THEN sentiment='POS';
16	ELSE sentiment='NEG';
17	OUTPUT;
18	END;
19
20	RUN;
21

Étapes de réalisation

Starten der Aktion mit optimierten Parametern für große Datenmengen (Multithreading).

Kopiert!

1	PROC CAS;
2	boolRule.brTrain /
3	TABLE={name='big_reviews_terms'}
4	docId='docid'
5	termId='termid'
6	docInfo={
7	TABLE={name='big_reviews_info'}
8	id='docid'
9	targets={'sentiment'}
10	}
11	gPositive=2.0
12	gNegative=2.0
13	maxCandidates=50
14	nThreads=4
15	casOuts={rules={name='sentiment_rules', replace=true}};
16	RUN;

Erwartetes Ergebnis

Die Aktion muss innerhalb einer angemessenen Zeit ausgeführt werden, ohne Speicherfehler zu verursachen. Es werden Regeln generiert, die trotz des Rauschens in den Zufallsdaten versuchen, 'POS' und 'NEG' zu trennen (aufgrund der Zufallsgenerierung wird die Vorhersagekraft niedrig sein, aber der technische Durchlauf ist entscheidend).

Voir la documentation technique de brTrain