Exploration, automatische Variablenanalyse und Gruppierung unter Verwendung einer umfassenden statistischen Profilerstellung der Variablen. Diese Aktion analysiert Eingabedaten, um statistische Eigenschaften, Verteilungen und Beziehungen zwischen Variablen zu verstehen, was für die Vorbereitung von Daten für maschinelles Lernen entscheidend ist.
| Parameter | Beschreibung |
|---|---|
| table | Gibt die Eingabetabelle an, die analysiert werden soll. Kann Parameter wie 'caslib' und 'name' enthalten. |
| casOut | Gibt die Ausgabetabelle an, in der die Ergebnisse der Analyse gespeichert werden. |
| target | Gibt die Zielvariable für die Analyse an. Dies ist nützlich für überwachte Lernaufgaben. |
| inputs | Gibt die Liste der Variablen an, die für die Analyse verwendet werden sollen. Wenn nicht angegeben, werden alle Variablen verwendet. |
| explorationPolicy | Spezifiziert die Richtlinie für die automatische Variablenanalyse und Gruppierung (AVAPT), einschließlich Einstellungen für Kardinalität, Entropie, Kurtosis und Ausreißer. |
| distinctCountLimit | Gibt das Limit für die Zählung eindeutiger Werte an. Wenn das Limit überschritten wird, kann der Misra-Gries-Algorithmus verwendet werden. |
| misraGries | Wenn auf TRUE gesetzt, wird der Misra-Gries-Algorithmus für die Schätzung der Häufigkeitsverteilung verwendet, falls das 'distinctCountLimit' überschritten wird. |
Erstellt eine Tabelle 'sample_data' mit numerischen und kategorialen Variablen sowie einer Zielvariablen.
| 1 | |
| 2 | DATA mycas.sample_data; |
| 3 | call streaminit(123); |
| 4 | DO i = 1 to 1000; |
| 5 | x1 = rand('Normal', 50, 10); |
| 6 | x2 = rand('Uniform'); |
| 7 | IF rand('Uniform') > 0.5 THEN cat1 = 'A'; |
| 8 | ELSE cat1 = 'B'; |
| 9 | IF x1 + 10*x2 > 55 THEN target = 1; |
| 10 | ELSE target = 0; |
| 11 | OUTPUT; |
| 12 | END; |
| 13 | |
| 14 | RUN; |
| 15 |
Führt eine Standard-Exploration der Daten durch, um Variablenprofile zu erstellen.
| 1 | |
| 2 | PROC CAS; |
| 3 | dataSciencePilot.exploreData / TABLE={name="sample_data"} target="target" casOut={name="explore_out"}; |
| 4 | |
| 5 | RUN; |
| 6 |
Führt eine Exploration durch und passt die Richtlinien für Kardinalität und Ausreißererkennung an.
| 1 | |
| 2 | PROC CAS; |
| 3 | dataSciencePilot.exploreData / TABLE={name="sample_data"} target="target" casOut={name="explore_policy_out"} explorationPolicy={cardinality={lowMediumCutoff=15}, outlier={momentLowMediumCutoff=2.0}}; |
| 4 | |
| 5 | RUN; |
| 6 |