dataSciencePilot

exploreData

Beschreibung

Exploration, automatische Variablenanalyse und Gruppierung unter Verwendung einer umfassenden statistischen Profilerstellung der Variablen. Diese Aktion analysiert Eingabedaten, um statistische Eigenschaften, Verteilungen und Beziehungen zwischen Variablen zu verstehen, was für die Vorbereitung von Daten für maschinelles Lernen entscheidend ist.

dataSciencePilot.exploreData { table={name="table-name", caslib="string"}, casOut={name="table-name", caslib="string"}, target="variable-name", inputs={{name="variable-name"}, ...}, explorationPolicy={...}, distinctCountLimit=integer, misraGries=TRUE|FALSE }
Einstellungen
ParameterBeschreibung
tableGibt die Eingabetabelle an, die analysiert werden soll. Kann Parameter wie 'caslib' und 'name' enthalten.
casOutGibt die Ausgabetabelle an, in der die Ergebnisse der Analyse gespeichert werden.
targetGibt die Zielvariable für die Analyse an. Dies ist nützlich für überwachte Lernaufgaben.
inputsGibt die Liste der Variablen an, die für die Analyse verwendet werden sollen. Wenn nicht angegeben, werden alle Variablen verwendet.
explorationPolicySpezifiziert die Richtlinie für die automatische Variablenanalyse und Gruppierung (AVAPT), einschließlich Einstellungen für Kardinalität, Entropie, Kurtosis und Ausreißer.
distinctCountLimitGibt das Limit für die Zählung eindeutiger Werte an. Wenn das Limit überschritten wird, kann der Misra-Gries-Algorithmus verwendet werden.
misraGriesWenn auf TRUE gesetzt, wird der Misra-Gries-Algorithmus für die Schätzung der Häufigkeitsverteilung verwendet, falls das 'distinctCountLimit' überschritten wird.
Erstellung von Beispieldaten für die Exploration

Erstellt eine Tabelle 'sample_data' mit numerischen und kategorialen Variablen sowie einer Zielvariablen.

Kopiert!
1 
2DATA mycas.sample_data;
3call streaminit(123);
4DO i = 1 to 1000;
5x1 = rand('Normal', 50, 10);
6x2 = rand('Uniform');
7IF rand('Uniform') > 0.5 THEN cat1 = 'A';
8ELSE cat1 = 'B';
9IF x1 + 10*x2 > 55 THEN target = 1;
10ELSE target = 0;
11OUTPUT;
12END;
13 
14RUN;
15 

Beispiele

Führt eine Standard-Exploration der Daten durch, um Variablenprofile zu erstellen.

SAS® / CAS-Code Code wartet auf Validierung durch die Community
Kopiert!
1 
2PROC CAS;
3dataSciencePilot.exploreData / TABLE={name="sample_data"} target="target" casOut={name="explore_out"};
4 
5RUN;
6 
Ergebnis :
Eine Ausgabetabelle 'explore_out', die statistische Zusammenfassungen und Metadaten für jede analysierte Variable enthält.

Führt eine Exploration durch und passt die Richtlinien für Kardinalität und Ausreißererkennung an.

SAS® / CAS-Code Code wartet auf Validierung durch die Community
Kopiert!
1 
2PROC CAS;
3dataSciencePilot.exploreData / TABLE={name="sample_data"} target="target" casOut={name="explore_policy_out"} explorationPolicy={cardinality={lowMediumCutoff=15}, outlier={momentLowMediumCutoff=2.0}};
4 
5RUN;
6 
Ergebnis :
Detaillierte Analyseergebnisse in 'explore_policy_out', die auf den strengeren Kriterien für Kardinalität und Ausreißer basieren.

FAQ

Was ist der Zweck der exploreData-Aktion?
Wie wird die Ausgabetabelle für die Analyseergebnisse festgelegt?
Was bewirkt der Parameter "distinctCountLimit"?
Welche Einstellungen können über den Parameter "explorationPolicy" konfiguriert werden?
Wozu dient der Parameter "event"?
Was ist die Standardeinstellung für den Parameter "misraGries"?