gvarcluster - WeAreCAS

Q: Qu'est-ce que l'action gvarcluster ?

L'action gvarcluster fournit un moyen d'effectuer le regroupement de variables et de créer un réseau non dirigé pour l'exploration des relations entre les variables.

Q: Quelle est la syntaxe générale de l'action gvarcluster en CASL ?

La syntaxe générale est gVarCluster.gvarcluster / ;. Les paramètres incluent des options pour les attributs, la collecte, les diagnostics, l'affichage, le mode exact, la fréquence, les entrées, le nombre maximum d'itérations (maxIter), le nombre maximum de membres (maxMember), le nombre maximum d'étapes (maxSteps), le nombre minimum de clusters (minCluster), les membres multiples, les variables nominales, les tables de sortie (outCP, outEdge, outTree, outVert), les polynômes, le rho, la sélection, l'arrêt, la table d'entrée, la variable cible, le poids et la tolérance xTol.

Q: Quelles sont les tables d'entrée et de sortie utilisées par l'action gvarcluster ?

L'action gvarcluster prend une table d'entrée principale. Elle peut créer plusieurs tables de sortie, notamment outCP (pour les covariances et statistiques), outEdge (pour les informations de bord du réseau), outTree (pour un diagramme d'arbre des résultats de clustering) et outVert (pour les sommets du réseau et leur taille.

Q: Comment spécifier la table d'entrée pour l'action gvarcluster ?

Le paramètre `table` est obligatoire et permet de spécifier les paramètres de la table d'entrée. Il inclut des options comme `caslib`, `computedOnDemand`, `computedVars`, `computedVarsProgram`, `dataSourceOptions`, `groupBy`, `groupByMode`, `importOptions`, `name` (nom de la table), `orderBy`, `singlePass`, `vars` (variables à inclure), `where` et `whereTable`.

Q: Comment définir les variables d'entrée pour l'analyse ?

Le paramètre `inputs` spécifie les variables à utiliser pour l'analyse. Chaque variable est définie par une liste d'attributs tels que `format`, `formattedLength`, `label`, `name` (nom de la variable), `nfd` et `nfl`.

Q: Comment spécifier les variables nominales (catégorielles) ?

Le paramètre `nominals` spécifie les variables nominales à utiliser pour l'analyse. Chaque variable est définie par une liste d'attributs similaires à ceux des variables d'entrée (`format`, `formattedLength`, `label`, `name`, `nfd`, `nfl`).

Q: Que représente le paramètre rho ?

Le paramètre `rho` spécifie une valeur double qui détermine la séquence des paramètres de régularisation (la première puissance de rho, la deuxième puissance de rho, et ainsi de suite) utilisés lors des étapes de clustering séquentielles. La valeur par défaut est 0.8.

Q: Quel est le rôle du paramètre maxIter ?

Le paramètre `maxIter` spécifie le nombre maximum d'itérations pour l'estimation de la matrice de covariance de précision éparse en utilisant la descente de coordonnées. La valeur par défaut est 50, avec une plage de 1 à 100 000.

Q: Comment l'action gvarcluster produit-elle des données sur les covariances ?

Le paramètre `outCP` crée un ensemble de données qui contient une matrice symétrique décrivant les covariances entre les variables, ainsi qu'un ensemble de statistiques sur l'ensemble de données et les variables d'entrée. Il est possible de spécifier un `casOut` pour la table de sortie, un `eps` (epsilon) pour ignorer les entrées matricielles de faible valeur absolue (par défaut 0), et `list` pour générer la matrice symétrique au format liste de listes (par défaut False).

Q: À quoi sert le paramètre outEdge ?

Le paramètre `outEdge` crée un ensemble de données destiné à être utilisé avec l'action `Hypergroup` de la bibliothèque d'actions `tkhypgrp`. Cette table contient les informations définissant les arêtes du réseau : `_FROM_`, `_TO_` et `_WEIGHT_`.

Sommaire

Description

Fournit une action pour effectuer le regroupement de variables et fournir un réseau non dirigé pour l'exploration des relations entre les variables.

gVarCluster.gvarcluster <result=results> <status=rc> / attributes={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, collection={{details=TRUE | FALSE, name="string", vars={"variable-name-1" <, "variable-name-2", ...>}}, {...}}, diagnostics={eyecatcher="string"}, display={caseSensitive=TRUE | FALSE, exclude=TRUE | FALSE, excludeAll=TRUE | FALSE, keyIsPath=TRUE | FALSE, names={"string-1" <, "string-2", ...>}, pathType="LABEL" | "NAME", traceNames=TRUE | FALSE}, exact=TRUE | FALSE, freq="variable-name", inputs={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, maxIter=64-bit-integer, maxMember=64-bit-integer, maxSteps=64-bit-integer, minCluster=64-bit-integer, multimember={{details=TRUE | FALSE, name="string", noEffect=TRUE | FALSE, stdize=TRUE | FALSE, vars={"variable-name-1" <, "variable-name-2", ...>}, weight={"variable-name-1" <, "variable-name-2", ...>}}, {...}}, nominals={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, outCP={casOut={caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>}}, eps=double, list=TRUE | FALSE}, outEdge={caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>}}, outputTables={groupByVarsRaw=TRUE | FALSE, includeAll=TRUE | FALSE, names={"string-1" <, "string-2", ...>} | {key-1={casouttable-1} <, key-2={casouttable-2}, ...>}, repeated=TRUE | FALSE, replace=TRUE | FALSE}, outTree={caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>}}, outVert={caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>}}, polynomial={{degree=integer, details=TRUE | FALSE, labelStyle={expand=TRUE | FALSE, exponent="string", includeName=TRUE | FALSE, productSymbol="NONE" | "string"}, mDegree=integer, name="string", noSeparate=TRUE | FALSE, standardize={method="MOMENTS" | "MRANGE" | "WMOMENTS", options="CENTER" | "CENTERSCALE" | "NONE" | "SCALE", prefix="NONE" | "string"}, vars={"variable-name-1" <, "variable-name-2", ...>}}, {...}}, rho=double, select="ADJBIC" | "CV" | "NONE" | "PENALIZED", stop=64-bit-integer, table={caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, computedVarsProgram="string", dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>}, groupBy={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, groupByMode="NOSORT" | "REDISTRIBUTE", importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", orderBy={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, singlePass=TRUE | FALSE, vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression", whereTable={casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression"}}, target="string", weight="variable-name", xTol=double ;

Paramètres

Paramètre	Description
attributes	Modifie les attributs des variables utilisées dans cette action. Actuellement, les attributs spécifiés sur les paramètres `inputs` et `nominals` sont ignorés. Les sous-paramètres incluent : `format`, `formattedLength`, `label`, `name` (requis), `nfd`, `nfl`.
collection	Définit un ensemble de variables qui sont traitées comme un effet unique avec plusieurs degrés de liberté. Les sous-paramètres incluent : `details` (Défaut : `FALSE`), `name` (requis), `vars` (requis).
diagnostics	Informations de diagnostic. Le sous-paramètre `eyecatcher` (chaîne de caractères) spécifie une chaîne qui sera préfixée à tout message associé à cette invocation d'action.
display	Spécifie une liste de tables de résultats à envoyer au client pour affichage. Les sous-paramètres incluent : `caseSensitive` (Défaut : `FALSE`), `exclude` (Défaut : `FALSE`), `excludeAll` (Défaut : `FALSE`), `keyIsPath` (Défaut : `FALSE`), `names`, `pathType` ('LABEL' ou 'NAME'), `traceNames` (Défaut : `FALSE`).
exact	Si défini sur `TRUE`, effectue un regroupement de variables graphique sans prétraitement en seuillant la covariance d'échantillon en composants connectés. Par défaut, l'étape de prétraitement est effectuée. (Alias : `noblock`, Défaut : `FALSE`)
freq	Nomme la variable numérique qui contient la fréquence d'occurrence pour chaque observation.
inputs	Spécifie les variables à utiliser pour l'analyse. (Alias : `input`). Les sous-paramètres sont les mêmes que pour `attributes`.
maxIter	Spécifie le nombre maximum d'itérations pour estimer la matrice de covariance de précision éparse en utilisant la descente de coordonnées. (Défaut : `50`, Plage : `1–100000`)
maxMember	Arrête l'action lorsque le nombre de membres dans n'importe quel cluster est supérieur ou égal à la valeur spécifiée. (Plage : `1–100000`)
maxSteps	Spécifie le nombre maximum d'étapes de regroupement. (Défaut : `3`, Plage : `1–50`)
minCluster	Arrête l'action lorsque le nombre de clusters est inférieur ou égal à la valeur spécifiée. (Défaut : `3`, Plage : `1–100000`)
multimember	Utilise une ou plusieurs variables de classification spécifiées dans le paramètre `vars` de telle manière que chaque observation puisse être associée à un ou plusieurs niveaux de l'union des niveaux des variables de classification. Les sous-paramètres incluent : `details` (Défaut : `FALSE`), `name` (requis), `noEffect` (Défaut : `FALSE`), `stdize` (Défaut : `FALSE`), `vars` (requis), `weight`.
nominals	Spécifie les variables nominales à utiliser pour l'analyse. (Alias : `nominal`). Les sous-paramètres sont les mêmes que pour `attributes`.
outCP	Crée un ensemble de données qui contient une matrice symétrique décrivant les covariances entre les variables et crée également un ensemble de statistiques sur l'ensemble de données d'entrée et les variables. Les sous-paramètres incluent : `casOut` (requis), `eps` (Défaut : `0`, Min : `0`), `list` (Défaut : `FALSE`).
outEdge	Crée un ensemble de données pour une utilisation avec l'action Hypergroup dans la bibliothèque d'actions `tkhypgrp`. Cette table contient les informations qui définissent les arêtes du réseau : `_FROM_`, `_TO_` et `_WEIGHT_`. Les sous-paramètres sont les mêmes que pour `outCP.casOut`.
outputTables	Liste les noms des tables de résultats à enregistrer en tant que tables CAS sur le serveur. (Alias : `displayOut`). Les sous-paramètres incluent : `groupByVarsRaw` (Défaut : `FALSE`), `includeAll` (Défaut : `FALSE`), `names`, `repeated` (Défaut : `FALSE`), `replace` (Défaut : `FALSE`).
outTree	Crée un ensemble de données qui représente un diagramme arborescent pour afficher les résultats du regroupement hiérarchique. Le diagramme arborescent peut être tracé à l'aide de l'instruction DENDROGRAM dans le langage Graphe Template. Les sous-paramètres sont les mêmes que pour `outCP.casOut`.
outVert	Crée un ensemble de données pour une utilisation avec l'action Hypergroup dans la bibliothèque d'actions `tkhypgrp`. Cette table contient les sommets du réseau et leur taille. Les sous-paramètres sont les mêmes que pour `outCP.casOut`.
polynomial	Spécifie un effet polynomial. Toutes les variables spécifiées doivent être numériques. Une colonne de matrice de conception est générée pour chaque terme du polynôme spécifié. Par défaut, chacun de ces termes est traité comme un effet distinct aux fins de la construction du modèle. (Alias : `poly`). Les sous-paramètres incluent : `degree`, `details` (Défaut : `FALSE`), `labelStyle`, `mDegree`, `name` (requis), `noSeparate` (Défaut : `FALSE`), `standardize`, `vars` (requis).
rho	Spécifie la valeur de rho qui détermine la séquence des paramètres de régulation (la première puissance de rho, la deuxième puissance de rho, et ainsi de suite), qui sont utilisés sur les étapes de regroupement séquentielles. (Défaut : `0.8`)
select	Spécifie le critère de sélection du modèle. Les valeurs possibles sont : `ADJBIC`, `CV`, `NONE`, `PENALIZED`. (Défaut : `NONE`)
stop	Demande que l'action s'arrête si les résultats du regroupement ne changent pas dans le nombre d'étapes consécutives précédent spécifié dans ce paramètre. (Défaut : `3`, Plage : `2–100`)
table	Spécifie les paramètres pour une table d'entrée. Ce paramètre est requis. Les sous-paramètres incluent : `caslib`, `computedOnDemand` (Défaut : `FALSE`), `computedVars`, `computedVarsProgram`, `dataSourceOptions`, `groupBy`, `groupByMode`, `importOptions`, `name` (requis), `orderBy`, `singlePass` (Défaut : `FALSE`), `vars`, `where`, `whereTable`.
target	Spécifie la variable cible à utiliser pour l'analyse.
weight	Nomme la variable numérique à utiliser pour effectuer une analyse pondérée des données.
xTol	Spécifie la tolérance absolue minimale à laquelle une itération s'arrête. (Défaut : `0.001`, Valeur minimale : `1E-12`)

Préparation des Données Voir la fiche de ce code dataprep

Création de données d'exemple (aucune dans le HTML fourni)

Le document HTML fourni ne contient pas d'exemples directs pour la création de données. Veuillez consulter la section 'Exemple' pour les cas d'utilisation.

Copié !

1	// Aucun code de création de données directement fourni dans la documentation d'exemple.

Exemples

FAQ

Qu'est-ce que l'action gvarcluster ?

Quelle est la syntaxe générale de l'action gvarcluster en CASL ?

Quelles sont les tables d'entrée et de sortie utilisées par l'action gvarcluster ?

Comment spécifier la table d'entrée pour l'action gvarcluster ?

Comment définir les variables d'entrée pour l'analyse ?

Comment spécifier les variables nominales (catégorielles) ?

Que représente le paramètre rho ?

Quel est le rôle du paramètre maxIter ?

Comment l'action gvarcluster produit-elle des données sur les covariances ?

À quoi sert le paramètre outEdge ?

Comment visualiser les résultats de clustering hiérarchique ?

Comment l'action gvarcluster fournit-elle des informations sur les nœuds du réseau ?