boolRule brTrain

Performance-Test: Stimmungsanalyse bei hohem Datenvolumen

Scénario de test & Cas d'usage

Geschäftskontext

Eine E-Commerce-Plattform möchte Produktbewertungen analysieren, um automatisch positive und negative Stimmungen zu erkennen. Aufgrund der riesigen Menge an Bewertungen (simuliert 100.000 Dokumente) muss die Aktion unter Last getestet werden, um sicherzustellen, dass sie effizient skaliert und Speicherressourcen korrekt verwaltet.
Über das Set : boolRule

Extraktion boolescher Regeln zur Klassifikation.

Entdecken Sie alle Aktionen von boolRule
Datenaufbereitung

Generierung eines großen Datensatzes mit simulierten Bewertungen und Begriffen.

Kopiert!
1 
2DATA mycas.big_reviews_terms;
3DO i=1 to 100000;
4DO j=1 to 5;
5docid=i;
6termid=int(rand('uniform')*1000);
7OUTPUT;
8END;
9END;
10 
11RUN;
12DATA mycas.big_reviews_info;
13DO i=1 to 100000;
14docid=i;
15IF rand('uniform') > 0.5 THEN sentiment='POS';
16ELSE sentiment='NEG';
17OUTPUT;
18END;
19 
20RUN;
21 

Étapes de réalisation

1
Starten der Aktion mit optimierten Parametern für große Datenmengen (Multithreading).
Kopiert!
1PROC CAS;
2 boolRule.brTrain /
3 TABLE={name='big_reviews_terms'}
4 docId='docid'
5 termId='termid'
6 docInfo={
7 TABLE={name='big_reviews_info'}
8 id='docid'
9 targets={'sentiment'}
10 }
11 gPositive=2.0
12 gNegative=2.0
13 maxCandidates=50
14 nThreads=4
15 casOuts={rules={name='sentiment_rules', replace=true}};
16RUN;

Erwartetes Ergebnis


Die Aktion muss innerhalb einer angemessenen Zeit ausgeführt werden, ohne Speicherfehler zu verursachen. Es werden Regeln generiert, die trotz des Rauschens in den Zufallsdaten versuchen, 'POS' und 'NEG' zu trennen (aufgrund der Zufallsgenerierung wird die Vorhersagekraft niedrig sein, aber der technische Durchlauf ist entscheidend).