simple

groupByInfo

Description

L'action `groupByInfo` de l'ensemble d'actions 'Simple Analytics' est utilisée pour calculer l'index et la fréquence de chaque groupe, ainsi que l'index de chaque enregistrement au sein de son groupe. Elle offre des fonctionnalités d'analyse de base pour le regroupement de données, permettant de générer des colonnes d'informations détaillées sur les groupes, telles que la fréquence cumulative, la fréquence de groupe, les identifiants de groupe et la position des enregistrements au sein de leurs groupes ou sous-groupes.

simple.groupByInfo <result=results> <status=rc> / algorithm2=TRUE | FALSE, attributes={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, casOut={caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>}}, copyVars={"variable-name-1" <, "variable-name-2", ...>}, cumFreqName="variable-name", details=TRUE | FALSE, divider="string", frequencyName="variable-name", generatedColumns={"ALL", "CUMFREQ", "F", "FREQUENCY", "GROUPID", "NONE", "POSITION"}, groupByLimit=64-bit-integer, groupbyTable={casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", where="where-expression"}, groupIDName="variable-name", includeDuplicates=TRUE | FALSE, includeMissing=TRUE | FALSE, inputRegEx={"string-1" <, "string-2", ...>}, inputs={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, journalTrace=TRUE | FALSE, keyModify={"string-1" <, "string-2", ...>}, maxFrequency=64-bit-integer, maxPosition=64-bit-integer, minFrequency=64-bit-integer, minGroupsLL=64-bit-integer, minPosition=64-bit-integer, noVars=TRUE | FALSE, nSubGroupVars=integer, position=64-bit-integer, positionName="variable-name", sparse=TRUE | FALSE, subGroupCumFreqName="variable-name", subGroupFrequencyName="variable-name", subGroupIDName="variable-name", subGroupPositionName="variable-name", table={caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, computedVarsProgram="string", dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>}, groupBy={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, groupByMode="NOSORT" | "REDISTRIBUTE", importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", orderBy={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, singlePass=TRUE | FALSE, vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression", whereTable={casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression"}};
Paramètres
ParamètreDescription
attributesSpécifie les attributs de la variable. Pour plus d'informations sur la spécification du paramètre attributes, consultez le paramètre commun casinvardesc.
casOutSpécifie les paramètres d'une table de sortie. Pour plus d'informations sur la spécification du paramètre casOut, consultez le paramètre commun casouttable.
copyVarsSpécifie les colonnes à copier de la table d'entrée vers la table de sortie casOut. Les variables spécifiées dans le paramètre inputs et les colonnes groupBy sont automatiquement copiées.
cumFreqNameSpécifie le nom de la colonne pour la fréquence cumulative dans la table de sortie. La colonne affiche la fréquence cumulative du groupe auquel l'enregistrement appartient, par rapport à la table d'entrée. Le nom de colonne par défaut est _CumFreq_.
frequencyNameSpécifie le nom de la colonne pour les fréquences de groupe dans la table de sortie. Le nom de colonne par défaut est _Frequency_.
generatedColumnsSpécifie les colonnes générées à inclure dans la table de sortie. - ALL: Spécifie d'inclure toutes les colonnes générées dans la table de sortie. - CUMFREQ: Spécifie d'inclure la colonne _CumFreq_ dans la table de sortie. Si le paramètre nSubGroupVars est spécifié, la colonne _SubCumFreq_ est également incluse. - F: Spécifie d'inclure les colonnes qui contiennent les valeurs formatées des variables groupBy dans la table de sortie. Ce sont les colonnes dont les noms se terminent par _F. - FREQUENCY: Spécifie d'inclure la colonne _Frequency_ dans la table de sortie. - GROUPID: Spécifie d'inclure la colonne _GroupID_ dans la table de sortie. - NONE: Spécifie de n'inclure aucune colonne générée dans la table de sortie. - POSITION: Spécifie d'inclure la colonne _Position_ dans la table de sortie.
groupIDNameSpécifie le nom de la colonne pour les identifiants de groupe dans la table de sortie. Le nom de colonne par défaut est _GroupID_.
positionNameSpécifie le nom de la colonne pour la position de l'enregistrement au sein de son groupe dans la table de sortie. Le nom de colonne par défaut est _Position_.
subGroupCumFreqNameSpécifie le nom de la colonne pour la fréquence cumulative des sous-groupes auxquels chaque enregistrement appartient. Le nom de colonne par défaut est _SubCumFreq_.
subGroupFrequencyNameSpécifie le nom de la colonne pour la fréquence de l'enregistrement au sein de son sous-groupe. Le nom de colonne par défaut est _SubFrequency_.
subGroupIDNameSpécifie le nom de la colonne pour les identifiants de sous-groupe. Le nom de colonne par défaut est _SubGroupID_.
subGroupPositionNameSpécifie le nom de la colonne pour les fréquences de sous-groupe. Le nom de colonne par défaut est _SubPosition_.
algorithm2Spécifie un algorithme plus efficace pour le traitement des informations de groupe. Le traitement avec cet algorithme peut être plus rapide lorsque les données contiennent un grand nombre de groupes et que la grille que vous utilisez a de nombreux nœuds. (Par défaut: False). Note: Lorsque True est spécifié, la table de sortie spécifiée par casOut= ne contient pas de colonnes de valeurs formatées pour les variables d'entrée.
detailsSpécifie que les messages tels que le nombre de groupes et d'autres détails sont écrits dans le journal SAS. (Par défaut: False)
dividerSpécifie le caractère utilisé pour diviser les valeurs de caractères des variables d'entrée. Spécifiez un caractère qui n'est pas présent dans ces variables.
groupByLimitSpécifie le nombre maximal de niveaux dans un ensemble de regroupement. Lorsque le serveur détermine ce nombre de niveaux, il s'arrête et ne renvoie pas de résultat. Spécifiez ce paramètre si vous voulez éviter de créer de grands ensembles de résultats dans les opérations de regroupement. (Valeur minimale: 1)
includeDuplicatesSpécifie que la table de sortie contient des enregistrements en double. (Par défaut: False)
includeMissingSpécifie que les groupes qui ont une valeur manquante dans une variable groupBy sont inclus dans la table casOut. (Par défaut: False)
inputRegExSpécifie une liste d'expressions régulières, une pour chaque variable de la liste d'entrées.
journalTraceLorsqu'il est défini sur True, l'action écrit des informations de traçage détaillées dans le journal SAS. (Par défaut: False)
keyModifySpécifie si vous souhaitez que les valeurs de caractères des variables d'entrée soient justifiées à gauche (L), justifiées à droite (R), converties en majuscules (U) et que les blancs consécutifs soient condensés en un seul blanc (C).
maxFrequencySpécifie que la table de sortie contient des enregistrements avec _Frequency_ inférieure ou égale à ce nombre. (Par défaut: INT64_MAX, Valeur minimale: 1)
maxPositionSpécifie que la table de sortie contient des enregistrements avec _Position_ inférieure ou égale à ce nombre. (Par défaut: INT64_MAX, Valeur minimale: 1)
minFrequencySpécifie que la table de sortie contient des enregistrements avec _Frequency_ supérieure ou égale à ce nombre. (Par défaut: 0, Valeur minimale: 1)
minGroupsLLSpécifie le nombre minimum de groupes requis pour utiliser les algorithmes parallèles après lecture. (Par défaut: 100000, Valeur minimale: 1)
minPositionSpécifie que la table de sortie contient des enregistrements avec _Position_ supérieure ou égale à ce nombre. (Par défaut: -1, Valeur minimale: 1)
noVarsLorsqu'il est défini sur True, aucune variable n'est automatiquement copiée de la table d'entrée vers la table de sortie. Par défaut, toutes les colonnes qui ne sont pas dans les paramètres inputs, groupBy, weight ou frequency sont copiées. (Par défaut: False)
nSubGroupVarsSpécifie le nombre de variables dans la liste de variables d'entrée dont les valeurs déterminent les sous-groupes. (Par défaut: 0, Valeur minimale: 1)
positionSpécifie de filtrer les enregistrements pour la table de sortie. Seuls les enregistrements qui correspondent à la valeur spécifiée dans la colonne _Position_ sont inclus dans la table de sortie. (Par défaut: -1, Valeur minimale: 1)
sparseLorsqu'il est défini sur True et que l'action s'exécute sur un serveur distribué, chaque thread lit les données qui appartiennent à seulement quelques groupes. Par défaut, chaque thread lit les enregistrements de nombreux groupes ou de tous les groupes. Spécifiez True pour améliorer les performances lorsqu'il y a de nombreux threads sur tous les workers, de nombreux groupes, ou les deux. Dans certains cas, sparse est activé automatiquement. (Par défaut: False)
inputsSpécifie les variables d'entrée pour l'analyse. Pour plus d'informations sur la spécification du paramètre inputs, consultez le paramètre commun casinvardesc.
tableSpécifie le nom de la table, la bibliothèque cas et d'autres paramètres communs. Pour plus d'informations sur la spécification du paramètre table, consultez le paramètre commun castable.
groupbyTable.casLibSpécifie la bibliothèque cas pour la table de filtre. Par défaut, la bibliothèque cas active est utilisée.
groupbyTable.dataSourceOptionsSpécifie les options de la source de données. Pour plus d'informations sur la spécification du paramètre dataSourceOptions, consultez le paramètre commun dataSourceOptions.
groupbyTable.importOptionsSpécifie les paramètres de lecture d'une table à partir d'une source de données. Pour plus d'informations sur la spécification du paramètre importOptions, consultez le paramètre commun importOptions.
groupbyTable.nameSpécifie le nom de la table de filtre.
groupbyTable.whereSpécifie une expression pour sous-échantillonner les données de la table de filtre.

Exemples

Le document HTML fourni ne contient pas d'exemples simples directement intégrés. Il fait référence à un lien externe pour des exemples. Vous devriez consulter la documentation SAS officielle pour des exemples concrets.

Code SAS® / CAS Code en attente de validation par la communauté
Copié !
1// Exemple non fourni dans le document HTML
2PROC CAS;
3 SESSION casauto;
4 SIMPLE.groupByInfo / TABLE='myTable', inputs={'column1', 'column2'};
5QUIT;
Résultat :
Le résultat attendu dépend des données d'entrée et des paramètres spécifiés. Généralement, l'action `groupByInfo` renvoie une table de sortie contenant l'index et la fréquence de chaque groupe, ainsi que l'index de chaque enregistrement au sein de son groupe, basés sur les variables d'entrée spécifiées.

Le document HTML fourni ne contient pas d'exemples détaillés directement intégrés. Il fait référence à un lien externe pour des exemples. Vous devriez consulter la documentation SAS officielle pour des exemples concrets.

Code SAS® / CAS Code en attente de validation par la communauté
Copié !
1// Exemple non fourni dans le document HTML
2PROC CAS;
3 SESSION casauto;
4 /* Charger une table exemple si nécessaire */
5 /* caslib _all_ assign;
6 data casuser.myTable;
7 input column1 $ column2 $;
8 datalines;
9 A X
10 A Y
11 B X
12 B Z
13 A X
14 ;
15 run;
16 */
17 
18 SIMPLE.groupByInfo /
19 TABLE={name='myTable'},
20 inputs={'column1', 'column2'},
21 generatedColumns={'ALL'},
22 details=TRUE,
23 casOut={name='groupByInfoOutput', replace=TRUE};
24QUIT;
Résultat :
Le résultat attendu serait une table CAS nommée 'groupByInfoOutput' (ou celle spécifiée dans casOut) avec des colonnes supplémentaires telles que _GroupID_, _Frequency_, _CumFreq_, _Position_, etc., fournissant des détails sur le regroupement des données selon 'column1' et 'column2'.

FAQ

Que fait l'action 'groupByInfo' ?
Quel est le rôle du paramètre 'cumFreqName' dans l'action 'groupByInfo' ?
À quoi sert le paramètre 'frequencyName' dans l'action 'groupByInfo' ?
Quelles sont les options disponibles pour le paramètre 'generatedColumns' et à quoi servent-elles ?
Quel est le but du paramètre 'groupIDName' dans l'action 'groupByInfo' ?
Que définit le paramètre 'positionName' pour l'action 'groupByInfo' ?
Quelle est la fonction du paramètre 'subGroupCumFreqName' dans l'action 'groupByInfo' ?
À quoi correspond le paramètre 'subGroupFrequencyName' dans l'action 'groupByInfo' ?
Que fait le paramètre 'subGroupIDName' dans l'action 'groupByInfo' ?
Quel est le rôle du paramètre 'subGroupPositionName' dans l'action 'groupByInfo' ?
Quand doit-on utiliser le paramètre 'algorithm2' dans l'action 'groupByInfo' et quels sont ses effets ?
Que contrôle le paramètre 'details' dans l'action 'groupByInfo' ?
À quoi sert le paramètre 'divider' dans l'action 'groupByInfo' ?
Que fait le paramètre 'groupByLimit' dans l'action 'groupByInfo' ?
Quel est l'effet du paramètre 'includeDuplicates' dans l'action 'groupByInfo' ?
Quand les groupes avec des valeurs manquantes sont-ils inclus dans l'action 'groupByInfo' ?
Que représente le paramètre 'inputRegEx' dans l'action 'groupByInfo' ?
Quel est l'objectif du paramètre 'journalTrace' dans l'action 'groupByInfo' ?
Que permet de contrôler le paramètre 'keyModify' dans l'action 'groupByInfo' ?
Comment le paramètre 'maxFrequency' filtre-t-il les enregistrements dans l'action 'groupByInfo' ?
Quel est le rôle du paramètre 'maxPosition' dans l'action 'groupByInfo' ?
Comment le paramètre 'minFrequency' affecte-t-il la table de sortie dans l'action 'groupByInfo' ?
Que détermine le paramètre 'minGroupsLL' dans l'action 'groupByInfo' ?
Quelle est la fonction du paramètre 'minPosition' dans l'action 'groupByInfo' ?
Que se passe-t-il si le paramètre 'noVars' est défini sur 'True' dans l'action 'groupByInfo' ?
Que spécifie le paramètre 'nSubGroupVars' dans l'action 'groupByInfo' ?
Quel est l'usage du paramètre 'position' dans l'action 'groupByInfo' ?
Dans quelles conditions le paramètre 'sparse' est-il utile pour l'action 'groupByInfo' ?
À quoi sert le paramètre 'attributes' dans l'action 'groupByInfo' ?
Quel est le rôle du paramètre 'casOut' dans l'action 'groupByInfo' ?
Que fait le paramètre 'copyVars' dans l'action 'groupByInfo' ?
Quel est l'objectif du paramètre 'groupbyTable' dans l'action 'groupByInfo' et ses sous-paramètres ?
Que définit le paramètre 'inputs' pour l'action 'groupByInfo' ?
Quel est le paramètre 'table' dans l'action 'groupByInfo' ?