Die Aktion exploreCorrelation ist Teil des dataSciencePilot-Aktionssatzes und dient der Exploration linearer und nichtlinearer Korrelationen zwischen Variablen. Sie ist ein wesentliches Werkzeug für das Feature-Engineering, um Beziehungen zwischen Prädiktoren und Zielvariablen zu verstehen sowie redundante Merkmale zu identifizieren. Die Aktion unterstützt verschiedene Korrelationsstatistiken (z. B. Pearson, Mutual Information, Symmetrische Unsicherheit) für unterschiedliche Variablentypen (Intervall und Nominal) und bietet Optionen zur Behandlung fehlender Werte.
| Parameter | Beschreibung |
|---|---|
| table | Gibt die Eingabetabelle an (erforderlich). |
| casOut | Spezifiziert die CAS-Ausgabetabelle, in der die Analyseergebnisse gespeichert werden (erforderlich). |
| target | Gibt die Zielvariable für die Korrelationsanalyse an. Wenn angegeben, werden die Korrelationen der Eingabevariablen relativ zu diesem Ziel berechnet. |
| inputs | Gibt die Variablen an, die für die Analyse verwendet werden sollen. Standardmäßig werden alle Variablen verwendet, wenn dieser Parameter nicht gesetzt ist. |
| nominals | Definiert eine Liste von Variablen, die als nominal (kategorisch) behandelt werden sollen. |
| stats | Legt die zu berechnenden Korrelationsstatistiken fest (z. B. PEARSON, MI, SU) für verschiedene Kombinationen von Variablentypen (Intervall-Intervall, Nominal-Nominal, etc.). |
| binMissing | Wenn auf TRUE gesetzt, werden fehlende Werte in die Analyse einbezogen (als separate Kategorie oder Bin behandelt). |
| misraGries | Wenn auf TRUE gesetzt, wird der Misra-Gries-Algorithmus zur Schätzung der Häufigkeitsverteilung verwendet, falls das Limit für eindeutige Werte überschritten wird. |
| distinctCountLimit | Gibt das Limit für die Anzahl eindeutiger Werte an. Standard ist 10000. |
| event | Spezifiziert das Ereignis-Level für die Zielvariable bei Klassifikationsproblemen. |
Erzeugt eine CAS-Tabelle 'analysis_data' mit numerischen (x, y) und nominalen (c) Variablen sowie einer Zielvariable (target) für die Analyse.
| 1 | |
| 2 | PROC CAS; |
| 3 | dataStep.runCode / code=" |
| 4 | data casuser.analysis_data; |
| 5 | do i=1 to 1000; |
| 6 | x=rand('normal'); |
| 7 | y=2*x + rand('normal'); |
| 8 | c=ifc(rand('uniform')>0.5, 'A', 'B'); |
| 9 | target=ifc(x+y>0, 1, 0); |
| 10 | output; |
| 11 | end; |
| 12 | "; |
| 13 | |
| 14 | RUN; |
| 15 |
Führt eine grundlegende Korrelationsanalyse für die Tabelle 'analysis_data' durch und speichert die Ergebnisse in 'simple_corr'.
| 1 | |
| 2 | PROC CAS; |
| 3 | dataSciencePilot.exploreCorrelation / TABLE="analysis_data" casOut={name="simple_corr", replace=true}; |
| 4 | |
| 5 | RUN; |
| 6 |
Analysiert Korrelationen in Bezug auf die Zielvariable 'target', behandelt 'c' explizit als nominal, bezieht fehlende Werte ein und fordert spezifische Statistiken (Mutual Information, Pearson) an.
| 1 | |
| 2 | PROC CAS; |
| 3 | dataSciencePilot.exploreCorrelation / TABLE="analysis_data" target="target" nominals={"c"} binMissing=true stats={intervalInterval={"PEARSON", "MI"}, nominalInterval={"MI"}} casOut={name="detailed_corr", replace=true}; |
| 4 | |
| 5 | RUN; |
| 6 |