Hochvolumige Analyse von Produktbewertungen

Geschäftskontext

Ein E-Commerce-Riese möchte Millionen von Kundenbewertungen in Echtzeit verarbeiten, um Produktmerkmale (z.B. 'Akkulaufzeit', 'Bildschirmqualität') zu identifizieren. Dieser Test validiert die Performance der `crfScore`-Aktion bei großen Datenmengen und die Stabilität der Speicherverwaltung.

Datenaufbereitung

Generierung eines großen Datensatzes mit 100.000 simulierten Bewertungen.

Kopiert!

1
2	DATA casuser.large_reviews;
3	LENGTH text $100;
4	DO i=1 to 100000;
5	id=i;
6	IF mod(i,2)=0 THEN text='Der Bildschirm ist fantastisch, aber der Akku ist schwach.';
7	ELSE text='Schnelle Lieferung und toller Preis.';
8	OUTPUT;
9	END;
10
11	RUN;
12

Étapes de réalisation

Ausführung des Scorings auf dem großen Datensatz unter Angabe des Zielparameters.

Kopiert!

1
2	PROC CAS;
3	conditionalRandomFields.crfScore TABLE={name='large_reviews', caslib='casuser'} model={name='product_crf_model'} casOut={name='reviews_tagged', caslib='casuser', replace=true} target='feature_label';
4
5	RUN;
6
7	QUIT;
8

Validierung der Anzahl der verarbeiteten Zeilen.

Kopiert!

1
2	PROC CAS;
3	SIMPLE.numRows TABLE={name='reviews_tagged', caslib='casuser'};
4
5	RUN;
6
7	QUIT;
8

Erwartetes Ergebnis

Die Aktion verarbeitet alle 100.000 Zeilen ohne Speicherfehler oder Zeitüberschreitung. Die Ausgabetabelle 'reviews_tagged' enthält exakt 100.000 Zeilen, und die Spalte 'feature_label' ist für alle Einträge gefüllt.

Voir la documentation technique de crfScore