Die Aktion 'dataPreprocess.highCardinality' führt eine randomisierte Kardinalitätsschätzung durch. Diese Aktion hilft bei der Datenvorverarbeitung und Transformation, insbesondere bei der Bestimmung der Anzahl einzigartiger Werte (Kardinalität) für Variablen mit hoher Kardinalität. Dies ist nützlich für die Analyse und Vorbereitung von Daten für Machine-Learning-Modelle, bei denen die Kardinalität von Merkmalen die Modellleistung beeinflussen kann.
| Parameter | Beschreibung |
|---|---|
| casOutHighCardinalityDetails | Gibt die Einstellungen für eine Ausgabetabelle an. Für weitere Informationen zum Angeben des Parameters casOutHighCardinalityDetails siehe den gemeinsamen Parameter casouttable. Alias: casout. |
| caslib | Der Name der Caslib, die die Ausgabetabelle enthält. |
| compress | Gibt an, ob die Tabelle komprimiert werden soll. Werte: TRUE | FALSE. |
| indexVars | Gibt eine Liste von Variablen an, die indiziert werden sollen. |
| label | Ein Beschriftungstext für die Ausgabetabelle. |
| lifetime | Die Lebensdauer der Ausgabetabelle in Sekunden. |
| maxMemSize | Die maximale Speichergröße für die Tabelle in Bytes. |
| memoryFormat | Gibt das Speicherformat für die Ausgabetabelle an. Werte: 'DVR' | 'INHERIT' | 'STANDARD'. |
| name | Der Name der Ausgabetabelle. |
| promote | Gibt an, ob die Ausgabetabelle nach ihrer Erstellung beworben werden soll. Werte: TRUE | FALSE. |
| replace | Gibt an, ob eine vorhandene Ausgabetabelle ersetzt werden soll. Werte: TRUE | FALSE. |
| replication | Die Anzahl der Replikate für die Ausgabetabelle. |
| tableRedistUpPolicy | Gibt die Richtlinie für die Umverteilung der Tabelle an. Werte: 'DEFER' | 'NOREDIST' | 'REBALANCE'. |
| threadBlockSize | Die Blockgröße für Threads. |
| timeStamp | Ein Zeitstempel für die Ausgabetabelle. |
| where | Ein WHERE-Ausdruck zur Filterung der Ausgabetabelle. |
| freq | Gibt die Häufigkeitsvariable an. Alias: frequency. |
| includeMissingGroup | Wenn auf 'True' gesetzt, sind fehlende Werte als Gruppierungsschlüssel zulässig. Standard: FALSE. |
| inputs | Gibt die für die Analyse zu verwendenden Variablen an. Es kann eine Teilmenge der Variablen aus der Eingabetabelle angegeben werden. Alias: vars. |
| format | Das Format der Variable. |
| formattedLength | Die formatierte Länge der Variable. |
| label | Die Beschriftung der Variable. |
| name | Der Name der Variable. (Erforderlich) |
| nfd | Die Anzahl der Nachkommastellen für die Variable. |
| nfl | Die Länge der Variable. |
| nRegisterBits | Gibt den Exponenten an, der die Anzahl der Register bestimmt, die vom HyperLogLog++ Kardinalitätsschätzer verwendet werden. Standard: 10. Bereich: 5–16. |
| outputTableOptions | Gibt Optionen für Ergebnistabellen an. Sie können angeben, welche Ergebnistabellen der Server zurückgibt und wie Gruppierungsergebnisse behandelt werden. Alias: tblOpts. |
| forceTableReturn | Wenn auf 'True' gesetzt, werden Ergebnistabellen an den Client zurückgegeben, auch wenn die Ausgabe als Ausgabetabelle gespeichert wird. Standard: FALSE. |
| tableNames | Gibt die Namen der zu generierenden Ergebnistabellen an. Standardmäßig werden alle Ergebnistabellen zurückgegeben. Alias: outputTables. |
| table | Gibt den Tabellennamen, die Caslib und andere allgemeine Parameter an. (Erforderlich) |
| caslib | Der Name der Caslib, die die Tabelle enthält. |
| computedOnDemand | Gibt an, ob die berechneten Variablen bei Bedarf berechnet werden sollen. Werte: TRUE | FALSE. |
| computedVars | Gibt eine Liste von berechneten Variablen an. |
| computedVarsProgram | Das Programm für die berechneten Variablen. |
| dataSourceOptions | Gibt Optionen für die Datenquelle an. |
| groupBy | Gibt eine Liste von Variablen an, nach denen gruppiert werden soll. |
| groupByMode | Gibt den Gruppierungsmodus an. Werte: 'NOSORT' | 'REDISTRIBUTE'. |
| importOptions | Gibt Importoptionen für die Tabelle an. |
| name | Der Name der Tabelle. (Erforderlich) |
| orderBy | Gibt eine Liste von Variablen an, nach denen sortiert werden soll. |
| singlePass | Gibt an, ob die Daten in einem einzigen Durchlauf verarbeitet werden sollen. Werte: TRUE | FALSE. |
| vars | Gibt eine Liste von Variablen an. |
| where | Ein WHERE-Ausdruck zur Filterung der Tabelle. |
| whereTable | Gibt eine Tabelle an, die für den WHERE-Ausdruck verwendet werden soll. |
| weight | Gibt die Gewichtungsvariable an. |