dataSciencePilot

exploreCorrelation

Beschreibung

Die Aktion exploreCorrelation ist Teil des dataSciencePilot-Aktionssatzes und dient der Exploration linearer und nichtlinearer Korrelationen zwischen Variablen. Sie ist ein wesentliches Werkzeug für das Feature-Engineering, um Beziehungen zwischen Prädiktoren und Zielvariablen zu verstehen sowie redundante Merkmale zu identifizieren. Die Aktion unterstützt verschiedene Korrelationsstatistiken (z. B. Pearson, Mutual Information, Symmetrische Unsicherheit) für unterschiedliche Variablentypen (Intervall und Nominal) und bietet Optionen zur Behandlung fehlender Werte.

Einstellungen
ParameterBeschreibung
tableGibt die Eingabetabelle an (erforderlich).
casOutSpezifiziert die CAS-Ausgabetabelle, in der die Analyseergebnisse gespeichert werden (erforderlich).
targetGibt die Zielvariable für die Korrelationsanalyse an. Wenn angegeben, werden die Korrelationen der Eingabevariablen relativ zu diesem Ziel berechnet.
inputsGibt die Variablen an, die für die Analyse verwendet werden sollen. Standardmäßig werden alle Variablen verwendet, wenn dieser Parameter nicht gesetzt ist.
nominalsDefiniert eine Liste von Variablen, die als nominal (kategorisch) behandelt werden sollen.
statsLegt die zu berechnenden Korrelationsstatistiken fest (z. B. PEARSON, MI, SU) für verschiedene Kombinationen von Variablentypen (Intervall-Intervall, Nominal-Nominal, etc.).
binMissingWenn auf TRUE gesetzt, werden fehlende Werte in die Analyse einbezogen (als separate Kategorie oder Bin behandelt).
misraGriesWenn auf TRUE gesetzt, wird der Misra-Gries-Algorithmus zur Schätzung der Häufigkeitsverteilung verwendet, falls das Limit für eindeutige Werte überschritten wird.
distinctCountLimitGibt das Limit für die Anzahl eindeutiger Werte an. Standard ist 10000.
eventSpezifiziert das Ereignis-Level für die Zielvariable bei Klassifikationsproblemen.
Erstellung von Testdaten

Erzeugt eine CAS-Tabelle 'analysis_data' mit numerischen (x, y) und nominalen (c) Variablen sowie einer Zielvariable (target) für die Analyse.

Kopiert!
1 
2PROC CAS;
3dataStep.runCode / code="
4data casuser.analysis_data;
5do i=1 to 1000;
6x=rand('normal');
7y=2*x + rand('normal');
8c=ifc(rand('uniform')>0.5, 'A', 'B');
9target=ifc(x+y>0, 1, 0);
10output;
11end;
12";
13 
14RUN;
15 

Beispiele

Führt eine grundlegende Korrelationsanalyse für die Tabelle 'analysis_data' durch und speichert die Ergebnisse in 'simple_corr'.

SAS® / CAS-Code Code wartet auf Validierung durch die Community
Kopiert!
1 
2PROC CAS;
3dataSciencePilot.exploreCorrelation / TABLE="analysis_data" casOut={name="simple_corr", replace=true};
4 
5RUN;
6 
Ergebnis :
Eine Ausgabetabelle 'simple_corr', die die paarweisen Korrelationen zwischen allen Variablen im Datensatz enthält.

Analysiert Korrelationen in Bezug auf die Zielvariable 'target', behandelt 'c' explizit als nominal, bezieht fehlende Werte ein und fordert spezifische Statistiken (Mutual Information, Pearson) an.

SAS® / CAS-Code Code wartet auf Validierung durch die Community
Kopiert!
1 
2PROC CAS;
3dataSciencePilot.exploreCorrelation / TABLE="analysis_data" target="target" nominals={"c"} binMissing=true stats={intervalInterval={"PEARSON", "MI"}, nominalInterval={"MI"}} casOut={name="detailed_corr", replace=true};
4 
5RUN;
6 
Ergebnis :
Eine Tabelle 'detailed_corr', die Korrelationsmetriken (Pearson, MI) für die Eingabevariablen in Relation zur Zielvariable 'target' enthält, wobei fehlende Werte berücksichtigt werden.

FAQ

Was ist der Zweck der Aktion exploreCorrelation?
Zu welchem Aktionssatz gehört exploreCorrelation?
Wie kann gesteuert werden, ob fehlende Werte in die Analyse einbezogen werden?
Welche Funktion hat der Parameter casOut?
Was passiert, wenn das Limit für eindeutige Werte (distinctCountLimit) überschritten wird?
Welche Statistiken stehen für die Korrelation zwischen zwei Intervallvariablen zur Verfügung?
Welche Statistiken können für die Korrelation zwischen zwei Nominalvariablen verwendet werden?
Wozu dient der Parameter ecdfTolerance?
Wie definiert man die Zielvariable für die Analyse?
Was bewirkt der Parameter event?
Welche Speicherformate (memoryFormat) stehen für die Ausgabetabelle zur Verfügung?