fastknn - WeAreCAS

Q: Quelle est la fonction principale de l'action fastknn ?

L'action fastknn effectue une recherche des k plus proches voisins (k-nearest neighbor search).

Q: Quels sont les paramètres obligatoires pour exécuter cette action ?

Les paramètres 'query' (qui spécifie la table de données d'entrée contenant les observations de requête) et 'table' (qui spécifie les paramètres de la table d'entrée) sont requis.

Q: Comment spécifier la métrique de distance à utiliser ?

Utilisez le paramètre 'distanceMetric'. Les valeurs acceptées sont "COSINE" (distance cosinus), "IP" (produit scalaire) ou "L2" (distance euclidienne). La valeur par défaut est "L2".

Q: Est-il possible d'imputer les valeurs manquantes dans les données de requête ?

Oui, en définissant le paramètre 'impute' sur TRUE. Cela indique que les observations avec des valeurs manquantes dans la table de requête doivent être imputées en utilisant la méthode des k plus proches voisins.

Q: Comment définir le nombre de voisins à renvoyer ?

Utilisez le paramètre 'k' pour spécifier le nombre de voisins. La valeur par défaut est 2.

Q: Quelles sont les méthodes de recherche disponibles ?

Le paramètre 'method' permet de choisir entre "APPROXIMATE" (recherche approximative) et "EXACT" (recherche exacte). La valeur par défaut est "EXACT".

Q: À quoi sert le paramètre efConstruction ?

Le paramètre 'efConstruction' spécifie le nombre de voisins à prendre en compte lors de la construction du graphe. Sa valeur par défaut est 200.

Q: Comment sauvegarder les distances calculées dans une table ?

Vous pouvez utiliser le paramètre 'outDist' pour spécifier la table de données de sortie dans laquelle les distances calculées seront enregistrées.

Q: Comment ne sortir que les k distances les plus proches dans la table outDist ?

Il faut définir le paramètre 'useTopKOutDist' sur TRUE.

Q: Quel paramètre contrôle le nombre maximum de connexions par nœud ?

Le paramètre 'maxNeighbors' (alias M) spécifie le nombre maximum de connexions que chaque nœud peut avoir avec d'autres nœuds au sein d'une couche. La valeur par défaut est 16.

Description

L'action `fastknn` exécute une recherche des k plus proches voisins (k-nearest neighbors). Elle est utilisée pour identifier les k observations les plus proches d'une requête donnée à l'intérieur d'un ensemble de données de référence. Cette action est fondamentale pour les tâches de classification, de régression et de recommandation basées sur la similarité. Elle prend en charge plusieurs métriques de distance (Euclidienne L2, Cosinus, Produit Scalaire) et offre deux méthodes de recherche : EXACT (calcul précis mais plus coûteux) et APPROXIMATE (plus rapide pour les grands volumes de données). Elle permet également l'imputation de valeurs manquantes basée sur les voisins trouvés.

Paramètres

Paramètre	Description
table	Spécifie la table de données d'entrée contenant les données de référence (les voisins potentiels).
query	Spécifie la table de données d'entrée contenant les observations de la requête pour lesquelles on cherche les voisins.
k	Spécifie le nombre de voisins les plus proches à trouver pour chaque observation de la requête. La valeur par défaut est 2.
method	Spécifie la méthode de recherche : 'EXACT' (par défaut) calcule toutes les distances, 'APPROXIMATE' utilise un algorithme optimisé pour la vitesse.
distanceMetric	Définit la métrique de distance : 'L2' (Euclidienne, défaut), 'COSINE' ou 'IP' (Produit Scalaire).
inputs	Spécifie la liste des variables d'entrée à utiliser pour le calcul de distance.
output	Spécifie la table de sortie contenant les identifiants des k plus proches voisins trouvés.
outDist	Spécifie la table de sortie contenant les distances calculées entre la requête et ses voisins.
id	Spécifie une ou plusieurs variables à utiliser comme identifiant de ligne.
impute	Si mis à TRUE, les valeurs manquantes dans la table de requête sont imputées en utilisant les valeurs des voisins.

Préparation des Données Voir la fiche de ce code dataprep

Création de données pour la recherche de voisins

Création d'une table de référence (train) et d'une table de requête (query) avec des coordonnées numériques.

Copié !

1
2	DATA casuser.train_data;
3	DO i=1 to 100;
4	id=i;
5	x1=rand('uniform');
6	x2=rand('normal');
7	OUTPUT;
8	END;
9
10	RUN;
11
12	DATA casuser.query_data;
13	DO i=1 to 5;
14	id=i;
15	x1=rand('uniform');
16	x2=rand('normal');
17	OUTPUT;
18	END;
19
20	RUN;
21

Exemples

Recherche des 3 plus proches voisins pour chaque observation de la table 'query_data' dans la table 'train_data' en utilisant la méthode exacte par défaut.

Code SAS® / CAS Code en attente de validation par la communauté

Copié !

1
2	PROC CAS;
3	fastKnn.fastknn / TABLE={name="train_data"} query={name="query_data"} k=3 OUTPUT={casOut={name="knn_results", replace=true}};
4
5	RUN;
6

Résultat :
Une table 'knn_results' contenant les identifiants des 3 voisins les plus proches pour chaque ligne de la requête.

Recherche des 5 voisins les plus proches en utilisant la méthode approximative (plus rapide) et la distance Cosinus. Les distances sont sauvegardées dans une table séparée.

Code SAS® / CAS Code en attente de validation par la communauté

Copié !

1
2	PROC CAS;
3	fastKnn.fastknn / TABLE={name="train_data"} query={name="query_data"} k=5 method="APPROXIMATE" distanceMetric="COSINE" inputs={"x1", "x2"} id={"id"} OUTPUT={casOut={name="knn_neighbors", replace=true}} outDist={name="knn_distances", replace=true};
4
5	RUN;
6

Résultat :
Deux tables : 'knn_neighbors' avec les IDs des voisins et 'knn_distances' avec les valeurs de distance Cosinus correspondantes.

FAQ

Quelle est la fonction principale de l'action fastknn ?

Quels sont les paramètres obligatoires pour exécuter cette action ?

Comment spécifier la métrique de distance à utiliser ?

Est-il possible d'imputer les valeurs manquantes dans les données de requête ?

Sommaire

Description

Création de données pour la recherche de voisins

Exemples

Recherche exacte simple

Recherche approximative avec distances et métrique spécifique

FAQ