simple

crossTab

Beschreibung

Führt ein- oder zweidimensionale Tabellierungen durch. Diese Aktion ist grundlegend für die deskriptive Statistik und ermöglicht es, die Verteilung von kategorialen Variablen zu verstehen und Beziehungen zwischen ihnen zu untersuchen. Sie ist vergleichbar mit der Prozedur FREQ in Base SAS, ist aber für die Ausführung in der verteilten CAS-Umgebung optimiert.

simple.crossTab / acrossBy=TRUE | FALSE, aggregator="CSS" | "CV" | "KURTOSIS" | "MAX" | "MEAN" | "MIN" | "N" | "NMISS" | "PROBT" | "SKEWNESS" | "STD" | "STDERR" | "SUM" | "TSTAT" | "USS" | "VAR", association=TRUE | FALSE, chiSq=TRUE | FALSE, col="variable-name", colFormat="string", colNBins=integer, descending=TRUE | FALSE, fullTable=TRUE | FALSE, groupByLimit=64-bit-integer, includeMissing=TRUE | FALSE, niceBinning=TRUE | FALSE, orderByGbyRaw=TRUE | FALSE, row="variable-name", rowFormat="string", rowNBins=integer, table={caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, computedVarsProgram="string", dataSourceOptions={key-1=any-list-or-data-type-1, key-2=any-list-or-data-type-2, ...}, groupBy={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, groupByMode="NOSORT" | "REDISTRIBUTE", importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", orderBy={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, singlePass=TRUE | FALSE, vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression", whereTable={casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression"}}, weight="variable-name";
Einstellungen
ParameterBeschreibung
acrossByWenn auf True gesetzt, sind die Ebenen der Zeilen- und Spaltenvariablen über die Gruppierungsvariablen hinweg gleich.
aggregatorGibt den Aggregator an, für den die Werte der Gewichtungsvariable in einen Rangordnungswert zusammengefasst werden, wenn eine Gewichtungsvariable angegeben ist.
associationWenn auf True gesetzt, werden Assoziationsmaße zwischen der Zeilen- und Spaltenvariable der Kreuztabelle berechnet.
chiSqWenn auf True gesetzt, werden Chi-Quadrat-Statistiken für den Unabhängigkeitstest der Zeilen- und Spaltenvariablen und ihre asymptotischen p-Werte berechnet.
colGibt die Spaltenvariable an.
colFormatGibt ein Format für die Spaltenvariable an.
colNBinsGibt die Anzahl der Bins an, die beim Binning der Spaltenvariable verwendet werden sollen.
descendingWenn auf True gesetzt, werden die formatierten Ebenen der Variablen in absteigender Reihenfolge angeordnet.
fullTableWenn auf True gesetzt, wird ein vollständiger Tabellenscan durchgeführt.
groupByLimitGibt die maximale Anzahl von Ebenen in einem Group-by-Satz an. Wenn der Server diese Anzahl von Ebenen feststellt, stoppt der Server und gibt kein Ergebnis zurück. Geben Sie diesen Parameter an, wenn Sie das Erstellen großer Ergebnismengen bei Group-by-Operationen vermeiden möchten.
includeMissingWenn auf True gesetzt, werden fehlende Werte in die Kreuztabelle aufgenommen.
niceBinningWenn auf True gesetzt, wird der 'nice binning'-Algorithmus verwendet.
orderByGbyRawWenn auf True gesetzt, basiert die Reihenfolge der Group-by-Variablen auf den Rohwerten der Variablen, nicht auf den formatierten Werten.
rowGibt die Zeilenvariable an.
rowFormatGibt ein Format für die Zeilenvariable an.
rowNBinsGibt die Anzahl der Bins an, die beim Binning der Zeilenvariable verwendet werden sollen.
tableGibt die zu verwendende Eingabetabelle an. Dies ist ein obligatorischer Parameter.
weightGibt die numerische Gewichtungsvariable an, die zur Berechnung der Statistiken in der Tabellenzelle und in den Rändern der Tabelle verwendet wird.
Erstellung von Beispieldaten

Dieser Code erstellt eine Beispieltabelle 'cars_crosstab' in der CAS-Bibliothek 'casuser', die für die folgenden Beispiele verwendet wird. Sie enthält Daten über verschiedene Automodelle, einschließlich ihres Typs, ihrer Herkunft und ihres empfohlenen Verkaufspreises (MSRP).

Kopiert!
1 
2DATA casuser.cars_crosstab;
3SET sashelp.cars;
4RUN;
5 

Beispiele

Dieses Beispiel zeigt, wie eine einfache Häufigkeitstabelle für die Variable 'Type' aus der Tabelle 'cars_crosstab' erstellt wird. Dies ist die grundlegendste Verwendung der Aktion, um die Verteilung einer einzelnen kategorialen Variable zu erhalten.

SAS® / CAS-Code Code wartet auf Validierung durch die Community
Kopiert!
1 
2PROC CAS;
3SIMPLE.crossTab / TABLE={name='cars_crosstab'}, row='Type';
4 
5RUN;
6 
Ergebnis :
Das Ergebnis ist eine Tabelle, die die Häufigkeiten der verschiedenen Fahrzeugtypen (Hybrid, Limousine, Sport, SUV, LKW, Kombi) in der 'cars_crosstab'-Tabelle auflistet. Sie zeigt, wie viele Autos von jedem Typ in den Daten vorhanden sind.

Dieses Beispiel führt eine zweidimensionale Kreuztabelle der Variablen 'Type' und 'Origin' durch und verwendet dabei die Variable 'MSRP' als Gewichtung. Es berechnet auch Chi-Quadrat-Statistiken ('chiSq=true') und Assoziationsmaße ('association=true'), um die Beziehung zwischen Fahrzeugtyp und Herkunft zu untersuchen.

SAS® / CAS-Code Code wartet auf Validierung durch die Community
Kopiert!
1 
2PROC CAS;
3SIMPLE.crossTab / TABLE={name='cars_crosstab'}, row='Type', col='Origin', weight='MSRP', chiSq=true, association=true;
4 
5RUN;
6 
Ergebnis :
Die Ausgabe umfasst eine Kreuztabelle, die die gewichteten Häufigkeiten (basierend auf MSRP) von Fahrzeugtypen nach Herkunft anzeigt. Zusätzlich werden Tabellen mit Chi-Quadrat-Statistiken (wie Likelihood-Ratio und Pearson) und verschiedenen Assoziationsmaßen (wie Gamma, Kendall's Tau-b und Stuart's Tau-c) generiert, um die Stärke und Signifikanz der Beziehung zu bewerten.

FAQ

Was macht die `crossTab`-Aktion?
Welche Parameter sind erforderlich, um eine Kreuztabelle zu erstellen?
Wie erstelle ich eine zweidimensionale Kreuztabelle?
Kann ich eine Gewichtungsvariable in der Kreuztabelle verwenden?
Welche Statistiken kann die `crossTab`-Aktion berechnen?
Wie werden fehlende Werte standardmäßig behandelt und wie kann ich sie einbeziehen?
Ist es möglich, die Sortierreihenfolge der Tabellenebenen zu ändern?
Kann ich numerische Variablen für die Kreuztabellierung gruppieren (binning)?