match - WeAreCAS

Q: Quelle est l'utilité de l'action `match` dans SAS Viya ?

L'action `match` fait partie du jeu d'actions `Entity Resolution`. Sa fonction principale est le rapprochement de données (Data Management Matching). Elle est utilisée pour identifier et regrouper les enregistrements qui se réfèrent à la même entité au sein d'une table de données, en créant des clusters d'enregistrements similaires.

Q: Quels sont les paramètres obligatoires pour utiliser l'action `match` ?

Pour utiliser l'action `match`, les trois paramètres suivants sont obligatoires : `inTable`, qui spécifie la table de données d'entrée à traiter ; `clusterId`, qui définit le nom de la colonne de sortie pour les identifiants de cluster ; et `matchRules`, qui contient les règles de rapprochement basées sur les colonnes.

Q: À quoi sert le paramètre `clusterId` et quelle est sa valeur par défaut ?

Le paramètre `clusterId` spécifie le nom de la colonne dans la table de sortie qui contiendra les identifiants de cluster. Par défaut, le nom de cette colonne est "cID". Le type de cette colonne peut être défini avec `clusterIdType` (par défaut `DOUBLE`).

Q: Comment fonctionnent les règles de rapprochement (`matchRules`) ?

Le paramètre `matchRules` spécifie une ou plusieurs listes de colonnes. Pour que deux enregistrements soient regroupés dans le même cluster, ils doivent avoir des valeurs identiques pour toutes les colonnes spécifiées dans au moins une de ces listes (règles).

Q: Comment l'action `match` gère-t-elle les valeurs NULL ou les chaînes de caractères vides ?

Le comportement est contrôlé par deux paramètres. Premièrement, `nullValuesMatch` (défini à `FALSE` par défaut) indique si les valeurs NULL doivent être considérées comme des correspondances. Deuxièmement, `emptyStringIsNull` (défini à `TRUE` par défaut) détermine si les chaînes de caractères vides doivent être traitées comme des valeurs NULL. Par défaut, les valeurs NULL et les chaînes vides ne sont donc pas regroupées.

Q: Quels algorithmes peuvent être utilisés avec le paramètre `algorithm` ?

Le paramètre `algorithm` permet de choisir l'algorithme de traitement. Les options sont `SINGLE` pour un traitement sur un seul thread, `DISTRIBUTED` pour un traitement distribué, et `AUTO` (valeur par défaut), qui laisse le système choisir l'option la plus appropriée.

Sommaire

Codes SAS Liés

Fusion SAS : Maîtrisez l'instruction MERGE et les variables BY pour vos jointures

Tests unitaires SAS : Comment isoler l'exécution et mesurer la couverture de code

Test de la macro %m_utl_chk_func_exist pour vérifier l'existence de fonctions

Data Visualization : Donnez vie à vos données SAS avec d3.js et Crossfilter

SAS PROC PSMATCH : Maîtriser l’équilibrage par entropie (EWEIGHT) pour vos études observationnelles

Comment configurer vos sorties GIF sous SAS : Dimensions, Pilotes et Astuces Macro

SAS Viya API : Automatiser le remplacement des sources de données dans Visual Analytics

Programmation SAS : Comment supprimer proprement des mots spécifiques dans une chaîne de caractères

Test de la macro de gestion de clé retenue (Retained Key)

SAS 9 : Comment automatiser l'affectation de serveurs aux bibliothèques de métadonnées ?

Description

L'action `entityRes.match` est utilisée pour le rapprochement de données dans la gestion des entités. Elle identifie et regroupe les enregistrements similaires dans une table en clusters, en se basant sur des règles de correspondance définies par l'utilisateur. Cette action est fondamentale pour la résolution d'entités, permettant de consolider des données provenant de sources hétérogènes et de créer une vue unique et fiable des entités.

entityRes.match { algorithm="AUTO" | "DISTRIBUTED" | "SINGLE", clusterId="string", clusterIdLabel="string", clusterIdType="CHAR" | "DOUBLE" | "INT", columns={"variable-name-1" <, "variable-name-2", ...>}, doNotCluster="string", emptyStringIsNull=TRUE | FALSE, inTable={table-specification}, matchRules={{rule-1} <, {rule-2}, ...>}, nThreads=integer, nullValuesMatch=TRUE | FALSE, outTable={table-specification} }

Paramètres

Paramètre	Description
algorithm	Spécifie l'algorithme à utiliser. AUTO, DISTRIBUTED, ou SINGLE.
clusterId	Spécifie le nom de la colonne dans la table de sortie contenant les identifiants de cluster.
clusterIdLabel	Spécifie l'étiquette de la colonne dans la table de sortie contenant les identifiants de cluster.
clusterIdType	Spécifie le type de la colonne dans la table de sortie contenant les identifiants de cluster (CHAR, DOUBLE, INT).
columns	Spécifie les noms des colonnes de la table d'entrée à transmettre à la table de sortie. Si non spécifié, toutes les colonnes d'entrée apparaîtront en sortie.
doNotCluster	Spécifie le nom de la colonne dans la table d'entrée contenant le drapeau booléen 'Ne Pas Clusteriser'. Si la valeur est 'true' ou '1', la ligne sera placée dans son propre cluster.
emptyStringIsNull	Spécifie si les valeurs de chaîne vides doivent être traitées comme des valeurs NULL.
inTable	Spécifie la table de données d'entrée.
matchRules	Spécifie les noms des colonnes à utiliser pour faire correspondre les lignes et les regrouper en clusters.
nThreads	Spécifie le nombre de threads à utiliser (0 pour utiliser la valeur par défaut du système sur chaque worker).
nullValuesMatch	Spécifie si les valeurs NULL doivent être regroupées.
outTable	Spécifie la table de données de sortie où les colonnes transmises et les identifiants de cluster doivent être écrits.

Exemples

FAQ

Quelle est l'utilité de l'action `match` dans SAS Viya ?

Quels sont les paramètres obligatoires pour utiliser l'action `match` ?

À quoi sert le paramètre `clusterId` et quelle est sa valeur par défaut ?

Comment fonctionnent les règles de rapprochement (`matchRules`) ?

Comment l'action `match` gère-t-elle les valeurs NULL ou les chaînes de caractères vides ?

Quels algorithmes peuvent être utilisés avec le paramètre `algorithm` ?