dataPreprocess catTrans

Hochvolumige One-Hot-Codierung für E-Commerce-Empfehlungen

Scénario de test & Cas d'usage

Geschäftskontext

Ein großer Online-Händler möchte Benutzerinteraktionen für ein Empfehlungssystem aufbereiten. Da nachgelagerte maschinelle Lernmodelle (wie neuronale Netze) numerische Eingaben benötigen, müssen kategoriale Merkmale wie 'Gerätetyp' und 'Browsersprache' in ein binäres Format (One-Hot-Encoding) umgewandelt werden. Der Test prüft die Performance bei vielen Datensätzen.
Über das Set : dataPreprocess

Datenbereinigung, Imputation und Vorverarbeitung.

Entdecken Sie alle Aktionen von dataPreprocess
Datenaufbereitung

Simulation von 50.000 Web-Sitzungsprotokollen.

Kopiert!
1 
2DATA casuser.web_logs;
3LENGTH device $10 browser_lang $5;
4DO i=1 to 50000;
5IF rand('UNIFORM') < 0.7 THEN device='Mobile';
6ELSE device='Desktop';
7IF rand('UNIFORM') < 0.8 THEN browser_lang='DE';
8ELSE browser_lang='EN';
9OUTPUT;
10END;
11 
12RUN;
13 

Étapes de réalisation

1
Überprüfung der Datentabelle.
Kopiert!
1 
2PROC CAS;
3 
4TABLE.tableInfo / TABLE={name='web_logs', caslib='casuser'};
5 
6 
7RUN;
8 
2
Anwendung der 'ONEHOT'-Methode zur Erstellung binärer Indikatorvariablen.
Kopiert!
1PROC CAS;
2 dataPreprocess.catTrans /
3 TABLE={name='web_logs', caslib='casuser'},
4 method='ONEHOT',
5 inputs={{name='device'}, {name='browser_lang'}},
6 casOut={name='onehot_logs', caslib='casuser', replace=true},
7 outVarsNamePrefix='OH_',
8 evaluationStats=false;
9 RUN;

Erwartetes Ergebnis


Die Tabelle 'onehot_logs' wird generiert und enthält für jede Ausprägung von 'device' und 'browser_lang' eine eigene Spalte (z.B. OH_device_Mobile, OH_browser_lang_DE) mit den Werten 0 oder 1.