groupByInfo - WeAreCAS

Q: Que fait l'action 'groupByInfo' ?

L'action 'groupByInfo' calcule l'index et la fréquence de chaque groupe, ainsi que l'index de chaque enregistrement au sein de son groupe.

Q: Quel est le rôle du paramètre 'cumFreqName' dans l'action 'groupByInfo' ?

Le paramètre 'cumFreqName' spécifie le nom de la colonne pour la fréquence cumulée dans la table de sortie. La colonne indique la fréquence cumulée du groupe auquel appartient l'enregistrement, par rapport à la table d'entrée. Le nom de colonne par défaut est _CumFreq_.

Q: À quoi sert le paramètre 'frequencyName' dans l'action 'groupByInfo' ?

Le paramètre 'frequencyName' spécifie le nom de la colonne pour les fréquences de groupe dans la table de sortie. Le nom de colonne par défaut est _Frequency_.

Q: Quelles sont les options disponibles pour le paramètre 'generatedColumns' et à quoi servent-elles ?

Le paramètre 'generatedColumns' spécifie les colonnes générées à inclure dans la table de sortie. Les options sont : - 'ALL' : Inclut toutes les colonnes générées. - 'CUMFREQ' : Inclut la colonne _CumFreq_. Si le paramètre 'nSubGroupVars' est spécifié, la colonne _SubCumFreq_ est également incluse. - 'F' : Inclut les colonnes contenant les valeurs formatées des variables 'groupBy'. Ce sont les colonnes dont les noms se terminent par _F. - 'FREQUENCY' : Inclut la colonne _Frequency_. - 'GROUPID' : Inclut la colonne _GroupID_. - 'NONE' : N'inclut aucune colonne générée. - 'POSITION' : Inclut la colonne _Position_.

Q: Quel est le but du paramètre 'groupIDName' dans l'action 'groupByInfo' ?

Le paramètre 'groupIDName' spécifie le nom de la colonne pour les ID de groupe dans la table de sortie. Le nom de colonne par défaut est _GroupID_.

Q: Que définit le paramètre 'positionName' pour l'action 'groupByInfo' ?

Le paramètre 'positionName' spécifie le nom de la colonne pour la position de l'enregistrement au sein de son groupe dans la table de sortie. Le nom de colonne par défaut est _Position_.

Q: Quelle est la fonction du paramètre 'subGroupCumFreqName' dans l'action 'groupByInfo' ?

Le paramètre 'subGroupCumFreqName' spécifie le nom de la colonne pour la fréquence cumulée des sous-groupes auxquels appartient chaque enregistrement. Le nom de colonne par défaut est _SubCumFreq_.

Q: À quoi correspond le paramètre 'subGroupFrequencyName' dans l'action 'groupByInfo' ?

Le paramètre 'subGroupFrequencyName' spécifie le nom de la colonne pour la fréquence de l'enregistrement au sein de son sous-groupe. Le nom de colonne par défaut est _SubFrequency_.

Q: Que fait le paramètre 'subGroupIDName' dans l'action 'groupByInfo' ?

Le paramètre 'subGroupIDName' spécifie le nom de la colonne pour les ID de sous-groupe. Le nom de colonne par défaut est _SubGroupID_.

Q: Quel est le rôle du paramètre 'subGroupPositionName' dans l'action 'groupByInfo' ?

Le paramètre 'subGroupPositionName' spécifie le nom de la colonne pour les fréquences des sous-groupes. Le nom de colonne par défaut est _SubPosition_.

Sommaire

Description

L'action `groupByInfo` de l'ensemble d'actions 'Simple Analytics' est utilisée pour calculer l'index et la fréquence de chaque groupe, ainsi que l'index de chaque enregistrement au sein de son groupe. Elle offre des fonctionnalités d'analyse de base pour le regroupement de données, permettant de générer des colonnes d'informations détaillées sur les groupes, telles que la fréquence cumulative, la fréquence de groupe, les identifiants de groupe et la position des enregistrements au sein de leurs groupes ou sous-groupes.

simple.groupByInfo <result=results> <status=rc> / algorithm2=TRUE | FALSE, attributes={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, casOut={caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>}}, copyVars={"variable-name-1" <, "variable-name-2", ...>}, cumFreqName="variable-name", details=TRUE | FALSE, divider="string", frequencyName="variable-name", generatedColumns={"ALL", "CUMFREQ", "F", "FREQUENCY", "GROUPID", "NONE", "POSITION"}, groupByLimit=64-bit-integer, groupbyTable={casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", where="where-expression"}, groupIDName="variable-name", includeDuplicates=TRUE | FALSE, includeMissing=TRUE | FALSE, inputRegEx={"string-1" <, "string-2", ...>}, inputs={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, journalTrace=TRUE | FALSE, keyModify={"string-1" <, "string-2", ...>}, maxFrequency=64-bit-integer, maxPosition=64-bit-integer, minFrequency=64-bit-integer, minGroupsLL=64-bit-integer, minPosition=64-bit-integer, noVars=TRUE | FALSE, nSubGroupVars=integer, position=64-bit-integer, positionName="variable-name", sparse=TRUE | FALSE, subGroupCumFreqName="variable-name", subGroupFrequencyName="variable-name", subGroupIDName="variable-name", subGroupPositionName="variable-name", table={caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, computedVarsProgram="string", dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>}, groupBy={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, groupByMode="NOSORT" | "REDISTRIBUTE", importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", orderBy={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, singlePass=TRUE | FALSE, vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression", whereTable={casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression"}};

Paramètres

Paramètre	Description
attributes	Spécifie les attributs de la variable. Pour plus d'informations sur la spécification du paramètre attributes, consultez le paramètre commun casinvardesc.
casOut	Spécifie les paramètres d'une table de sortie. Pour plus d'informations sur la spécification du paramètre casOut, consultez le paramètre commun casouttable.
copyVars	Spécifie les colonnes à copier de la table d'entrée vers la table de sortie casOut. Les variables spécifiées dans le paramètre inputs et les colonnes groupBy sont automatiquement copiées.
cumFreqName	Spécifie le nom de la colonne pour la fréquence cumulative dans la table de sortie. La colonne affiche la fréquence cumulative du groupe auquel l'enregistrement appartient, par rapport à la table d'entrée. Le nom de colonne par défaut est _CumFreq_.
frequencyName	Spécifie le nom de la colonne pour les fréquences de groupe dans la table de sortie. Le nom de colonne par défaut est _Frequency_.
generatedColumns	Spécifie les colonnes générées à inclure dans la table de sortie. - ALL: Spécifie d'inclure toutes les colonnes générées dans la table de sortie. - CUMFREQ: Spécifie d'inclure la colonne _CumFreq_ dans la table de sortie. Si le paramètre nSubGroupVars est spécifié, la colonne _SubCumFreq_ est également incluse. - F: Spécifie d'inclure les colonnes qui contiennent les valeurs formatées des variables groupBy dans la table de sortie. Ce sont les colonnes dont les noms se terminent par _F. - FREQUENCY: Spécifie d'inclure la colonne _Frequency_ dans la table de sortie. - GROUPID: Spécifie d'inclure la colonne _GroupID_ dans la table de sortie. - NONE: Spécifie de n'inclure aucune colonne générée dans la table de sortie. - POSITION: Spécifie d'inclure la colonne _Position_ dans la table de sortie.
groupIDName	Spécifie le nom de la colonne pour les identifiants de groupe dans la table de sortie. Le nom de colonne par défaut est _GroupID_.
positionName	Spécifie le nom de la colonne pour la position de l'enregistrement au sein de son groupe dans la table de sortie. Le nom de colonne par défaut est _Position_.
subGroupCumFreqName	Spécifie le nom de la colonne pour la fréquence cumulative des sous-groupes auxquels chaque enregistrement appartient. Le nom de colonne par défaut est _SubCumFreq_.
subGroupFrequencyName	Spécifie le nom de la colonne pour la fréquence de l'enregistrement au sein de son sous-groupe. Le nom de colonne par défaut est _SubFrequency_.
subGroupIDName	Spécifie le nom de la colonne pour les identifiants de sous-groupe. Le nom de colonne par défaut est _SubGroupID_.
subGroupPositionName	Spécifie le nom de la colonne pour les fréquences de sous-groupe. Le nom de colonne par défaut est _SubPosition_.
algorithm2	Spécifie un algorithme plus efficace pour le traitement des informations de groupe. Le traitement avec cet algorithme peut être plus rapide lorsque les données contiennent un grand nombre de groupes et que la grille que vous utilisez a de nombreux nœuds. (Par défaut: False). Note: Lorsque True est spécifié, la table de sortie spécifiée par casOut= ne contient pas de colonnes de valeurs formatées pour les variables d'entrée.
details	Spécifie que les messages tels que le nombre de groupes et d'autres détails sont écrits dans le journal SAS. (Par défaut: False)
divider	Spécifie le caractère utilisé pour diviser les valeurs de caractères des variables d'entrée. Spécifiez un caractère qui n'est pas présent dans ces variables.
groupByLimit	Spécifie le nombre maximal de niveaux dans un ensemble de regroupement. Lorsque le serveur détermine ce nombre de niveaux, il s'arrête et ne renvoie pas de résultat. Spécifiez ce paramètre si vous voulez éviter de créer de grands ensembles de résultats dans les opérations de regroupement. (Valeur minimale: 1)
includeDuplicates	Spécifie que la table de sortie contient des enregistrements en double. (Par défaut: False)
includeMissing	Spécifie que les groupes qui ont une valeur manquante dans une variable groupBy sont inclus dans la table casOut. (Par défaut: False)
inputRegEx	Spécifie une liste d'expressions régulières, une pour chaque variable de la liste d'entrées.
journalTrace	Lorsqu'il est défini sur True, l'action écrit des informations de traçage détaillées dans le journal SAS. (Par défaut: False)
keyModify	Spécifie si vous souhaitez que les valeurs de caractères des variables d'entrée soient justifiées à gauche (L), justifiées à droite (R), converties en majuscules (U) et que les blancs consécutifs soient condensés en un seul blanc (C).
maxFrequency	Spécifie que la table de sortie contient des enregistrements avec _Frequency_ inférieure ou égale à ce nombre. (Par défaut: INT64_MAX, Valeur minimale: 1)
maxPosition	Spécifie que la table de sortie contient des enregistrements avec _Position_ inférieure ou égale à ce nombre. (Par défaut: INT64_MAX, Valeur minimale: 1)
minFrequency	Spécifie que la table de sortie contient des enregistrements avec _Frequency_ supérieure ou égale à ce nombre. (Par défaut: 0, Valeur minimale: 1)
minGroupsLL	Spécifie le nombre minimum de groupes requis pour utiliser les algorithmes parallèles après lecture. (Par défaut: 100000, Valeur minimale: 1)
minPosition	Spécifie que la table de sortie contient des enregistrements avec _Position_ supérieure ou égale à ce nombre. (Par défaut: -1, Valeur minimale: 1)
noVars	Lorsqu'il est défini sur True, aucune variable n'est automatiquement copiée de la table d'entrée vers la table de sortie. Par défaut, toutes les colonnes qui ne sont pas dans les paramètres inputs, groupBy, weight ou frequency sont copiées. (Par défaut: False)
nSubGroupVars	Spécifie le nombre de variables dans la liste de variables d'entrée dont les valeurs déterminent les sous-groupes. (Par défaut: 0, Valeur minimale: 1)
position	Spécifie de filtrer les enregistrements pour la table de sortie. Seuls les enregistrements qui correspondent à la valeur spécifiée dans la colonne _Position_ sont inclus dans la table de sortie. (Par défaut: -1, Valeur minimale: 1)
sparse	Lorsqu'il est défini sur True et que l'action s'exécute sur un serveur distribué, chaque thread lit les données qui appartiennent à seulement quelques groupes. Par défaut, chaque thread lit les enregistrements de nombreux groupes ou de tous les groupes. Spécifiez True pour améliorer les performances lorsqu'il y a de nombreux threads sur tous les workers, de nombreux groupes, ou les deux. Dans certains cas, sparse est activé automatiquement. (Par défaut: False)
inputs	Spécifie les variables d'entrée pour l'analyse. Pour plus d'informations sur la spécification du paramètre inputs, consultez le paramètre commun casinvardesc.
table	Spécifie le nom de la table, la bibliothèque cas et d'autres paramètres communs. Pour plus d'informations sur la spécification du paramètre table, consultez le paramètre commun castable.
groupbyTable.casLib	Spécifie la bibliothèque cas pour la table de filtre. Par défaut, la bibliothèque cas active est utilisée.
groupbyTable.dataSourceOptions	Spécifie les options de la source de données. Pour plus d'informations sur la spécification du paramètre dataSourceOptions, consultez le paramètre commun dataSourceOptions.
groupbyTable.importOptions	Spécifie les paramètres de lecture d'une table à partir d'une source de données. Pour plus d'informations sur la spécification du paramètre importOptions, consultez le paramètre commun importOptions.
groupbyTable.name	Spécifie le nom de la table de filtre.
groupbyTable.where	Spécifie une expression pour sous-échantillonner les données de la table de filtre.

Exemples

Le document HTML fourni ne contient pas d'exemples simples directement intégrés. Il fait référence à un lien externe pour des exemples. Vous devriez consulter la documentation SAS officielle pour des exemples concrets.

Code SAS® / CAS Code en attente de validation par la communauté

Copié !

1	// Exemple non fourni dans le document HTML
2	PROC CAS;
3	SESSION casauto;
4	SIMPLE.groupByInfo / TABLE='myTable', inputs={'column1', 'column2'};
5	QUIT;

Résultat :
Le résultat attendu dépend des données d'entrée et des paramètres spécifiés. Généralement, l'action `groupByInfo` renvoie une table de sortie contenant l'index et la fréquence de chaque groupe, ainsi que l'index de chaque enregistrement au sein de son groupe, basés sur les variables d'entrée spécifiées.

Le document HTML fourni ne contient pas d'exemples détaillés directement intégrés. Il fait référence à un lien externe pour des exemples. Vous devriez consulter la documentation SAS officielle pour des exemples concrets.

Code SAS® / CAS Code en attente de validation par la communauté

Copié !

1	// Exemple non fourni dans le document HTML
2	PROC CAS;
3	SESSION casauto;
4	/* Charger une table exemple si nécessaire */
5	/* caslib _all_ assign;
6	data casuser.myTable;
7	input column1 $ column2 $;
8	datalines;
9	A X
10	A Y
11	B X
12	B Z
13	A X
14	;
15	run;
16	*/
17
18	SIMPLE.groupByInfo /
19	TABLE={name='myTable'},
20	inputs={'column1', 'column2'},
21	generatedColumns={'ALL'},
22	details=TRUE,
23	casOut={name='groupByInfoOutput', replace=TRUE};
24	QUIT;

Résultat :
Le résultat attendu serait une table CAS nommée 'groupByInfoOutput' (ou celle spécifiée dans casOut) avec des colonnes supplémentaires telles que _GroupID_, _Frequency_, _CumFreq_, _Position_, etc., fournissant des détails sur le regroupement des données selon 'column1' et 'column2'.

FAQ

Que fait l'action 'groupByInfo' ?

Quel est le rôle du paramètre 'cumFreqName' dans l'action 'groupByInfo' ?

À quoi sert le paramètre 'frequencyName' dans l'action 'groupByInfo' ?

Quelles sont les options disponibles pour le paramètre 'generatedColumns' et à quoi servent-elles ?

Quel est le but du paramètre 'groupIDName' dans l'action 'groupByInfo' ?

Que définit le paramètre 'positionName' pour l'action 'groupByInfo' ?

Quelle est la fonction du paramètre 'subGroupCumFreqName' dans l'action 'groupByInfo' ?

À quoi correspond le paramètre 'subGroupFrequencyName' dans l'action 'groupByInfo' ?

Que fait le paramètre 'subGroupIDName' dans l'action 'groupByInfo' ?

Quel est le rôle du paramètre 'subGroupPositionName' dans l'action 'groupByInfo' ?

Quand doit-on utiliser le paramètre 'algorithm2' dans l'action 'groupByInfo' et quels sont ses effets ?

Que contrôle le paramètre 'details' dans l'action 'groupByInfo' ?

À quoi sert le paramètre 'divider' dans l'action 'groupByInfo' ?

Que fait le paramètre 'groupByLimit' dans l'action 'groupByInfo' ?

Quel est l'effet du paramètre 'includeDuplicates' dans l'action 'groupByInfo' ?

Quand les groupes avec des valeurs manquantes sont-ils inclus dans l'action 'groupByInfo' ?

Que représente le paramètre 'inputRegEx' dans l'action 'groupByInfo' ?

Quel est l'objectif du paramètre 'journalTrace' dans l'action 'groupByInfo' ?

Que permet de contrôler le paramètre 'keyModify' dans l'action 'groupByInfo' ?

Comment le paramètre 'maxFrequency' filtre-t-il les enregistrements dans l'action 'groupByInfo' ?

Quel est le rôle du paramètre 'maxPosition' dans l'action 'groupByInfo' ?

Comment le paramètre 'minFrequency' affecte-t-il la table de sortie dans l'action 'groupByInfo' ?

Que détermine le paramètre 'minGroupsLL' dans l'action 'groupByInfo' ?

Quelle est la fonction du paramètre 'minPosition' dans l'action 'groupByInfo' ?

Que se passe-t-il si le paramètre 'noVars' est défini sur 'True' dans l'action 'groupByInfo' ?

Que spécifie le paramètre 'nSubGroupVars' dans l'action 'groupByInfo' ?

Quel est l'usage du paramètre 'position' dans l'action 'groupByInfo' ?

Dans quelles conditions le paramètre 'sparse' est-il utile pour l'action 'groupByInfo' ?

À quoi sert le paramètre 'attributes' dans l'action 'groupByInfo' ?

Quel est le rôle du paramètre 'casOut' dans l'action 'groupByInfo' ?

Que fait le paramètre 'copyVars' dans l'action 'groupByInfo' ?

Quel est l'objectif du paramètre 'groupbyTable' dans l'action 'groupByInfo' et ses sous-paramètres ?

Que définit le paramètre 'inputs' pour l'action 'groupByInfo' ?

Quel est le paramètre 'table' dans l'action 'groupByInfo' ?

Actions associées

simple

compare

Compare deux tables en calculant l'index et la fréquence de chaque groupe, la...

simple

correlation

L'action `correlation` calcule les coefficients de corrélation produit-moment...

simple

crossTab

Réalise des tabulations à une ou deux voies pour produire des tables de fréqu...

simple

freq

L'action `freq` du jeu d'actions `simple` génère une distribution de fréquenc...

simple

groupBy

Construit des groupes BY en termes de combinaisons de valeurs de variables ét...

simple

mdSummary

L'action mdSummary calcule des statistiques descriptives multidimensionnelles...

Sommaire

Description

Exemples

Exemple simple de groupByInfo

Exemple détaillé de groupByInfo

FAQ

Actions associées

compare

correlation

crossTab

freq

groupBy

mdSummary