fastknn - WeAreCAS

Q: ¿Cuál es la función principal de la acción fastknn?

La acción fastknn realiza una búsqueda de los k-vecinos más cercanos (k-nearest neighbor).

Q: ¿Cuáles son los parámetros obligatorios para ejecutar esta acción?

Los parámetros obligatorios son 'query' (la tabla de datos de entrada de consulta) y 'table' (la configuración de la tabla de entrada).

Q: ¿Qué métricas de distancia están disponibles y cuál es la predeterminada?

Se pueden utilizar las métricas 'COSINE' (distancia coseno), 'IP' (producto interno) y 'L2' (distancia euclidiana). La métrica predeterminada es 'L2'.

Q: ¿Cómo se puede gestionar la imputación de valores faltantes?

Estableciendo el parámetro 'impute' en TRUE. Esto indica que las observaciones con valores faltantes en la tabla de consulta se imputen utilizando el método de k-vecinos más cercanos.

Q: ¿Qué métodos de búsqueda ofrece la acción fastknn?

Ofrece dos métodos: 'APPROXIMATE' (búsqueda aproximada) y 'EXACT' (búsqueda exacta). El valor predeterminado es 'EXACT'.

Q: ¿Cómo se especifica el número de vecinos que se deben devolver?

Se utiliza el parámetro 'k' para especificar este número. El valor por defecto es 2.

Q: ¿Para qué sirve el parámetro 'outDist'?

El parámetro 'outDist' especifica la tabla de datos de salida en la que se guardarán las distancias calculadas.

Q: ¿Qué controlan los parámetros 'efConstruction' y 'efSearch'?

'efConstruction' determina el número de vecinos a considerar durante la construcción del grafo (por defecto 200), y 'efSearch' especifica el número de nodos candidatos a explorar durante la fase de búsqueda (por defecto 10).

Q: ¿Cómo se guardan los vecinos calculados?

Se debe utilizar el parámetro 'output' (y su subparametro 'casOut') para especificar la tabla de datos de salida donde se guardarán los vecinos calculados.

Q: ¿Es posible limitar la salida de distancias a solo las k más cercanas?

Sí, estableciendo el parámetro 'useTopKOutDist' en TRUE, solo se guardarán las k distancias más cercanas en la tabla especificada por 'outDist'.

Descripción

Realiza una búsqueda de los k vecinos más cercanos (k-nearest neighbor). La acción calcula las distancias entre las observaciones de consulta y las observaciones de entrada para identificar los k registros más similares.

Parámetros

Parámetro	Descripción
attributes	Especifica los atributos de la variable.
display	Especifica una lista de tablas de resultados para enviar al cliente para su visualización.
distanceMetric	Especifica la métrica que se utilizará para medir la distancia entre puntos en los cálculos de k vecinos más cercanos (COSINE, IP, L2).
efConstruction	Especifica el número de vecinos a considerar durante la construcción del gráfico (predeterminado: 200).
efSearch	Especifica el número de nodos candidatos a explorar durante la fase de búsqueda gráfica (predeterminado: 10).
id	Especifica la variable a utilizar como identificador de registro.
impute	Cuando se establece en True, especifica que las observaciones con valores faltantes en la tabla de datos de consulta se imputen utilizando el método de k vecinos más cercanos.
inputs	Especifica las variables de entrada a utilizar en el análisis.
k	Especifica el número de vecinos que se devolverán (predeterminado: 2).
maxNeighbors	Especifica el número máximo de conexiones que cada nodo puede tener con otros nodos dentro de una capa (predeterminado: 16).
method	Especifica el método de búsqueda de k vecinos más cercanos a utilizar (APPROXIMATE o EXACT).
outDist	Especifica la tabla de datos de salida en la que se guardarán las distancias calculadas.
outImpute	Especifica la tabla de datos de salida en la que se guardarán los datos de consulta después de imputar los valores faltantes.
output	Especifica la tabla de datos de salida en la que se guardarán los vecinos calculados.
outputTables	Enumera los nombres de las tablas de resultados para guardar como tablas CAS en el servidor.
query	Especifica la tabla de datos de entrada de consulta, que contiene las observaciones de consulta.
seed	Especifica el valor de semilla para la generación de números aleatorios.
table	Especifica la configuración para una tabla de entrada (tabla de referencia/entrenamiento).
threshDist	Especifica el valor umbral a utilizar para el cálculo de la distancia.
useTopKOutDist	Cuando se establece en True, especifica que solo las k distancias más cercanas superiores se envíen a la tabla de parámetros outDist.

Preparación de datos Ver hoja de preparación de datos

Creación de datos de entrenamiento y consulta

Crea dos conjuntos de datos: uno para entrenar el modelo (referencia) y otro con las observaciones de consulta para buscar vecinos.

¡Copiado!

1
2	DATA casuser.entrenamiento;
3	INPUT x y id;
4	DATALINES;
5	1 1 1 1 2 2 2 2 3 2 3 4;
6
7	RUN;
8
9	DATA casuser.consulta;
10	INPUT x y id;
11	DATALINES;
12	1.1 1.1 10 2.1 2.1 20;
13
14	RUN;
15

Ejemplos

Ejecuta el algoritmo fastknn para encontrar los 2 vecinos más cercanos para los datos de consulta utilizando la métrica de distancia predeterminada.

Código SAS® / CAS Código en espera de validación por la comunidad

¡Copiado!

1
2	PROC CAS;
3	fastKnn.fastknn TABLE={name="entrenamiento"} query={name="consulta"} k=2 inputs={"x", "y"} id={"id"};
4
5	RUN;
6

Resultado :
Se generan tablas de resultados mostrando los vecinos más cercanos identificados para cada observación de consulta.

Realiza una búsqueda de vecinos utilizando la distancia Euclidiana (L2), guardando los resultados de los vecinos y las distancias en tablas de salida separadas.

Código SAS® / CAS Código en espera de validación por la comunidad

¡Copiado!

1
2	PROC CAS;
3	fastKnn.fastknn TABLE={name="entrenamiento"} query={name="consulta"} k=2 inputs={"x", "y"} id={"id"} OUTPUT={casOut={name="vecinos", replace=true}} outDist={name="distancias", replace=true} distanceMetric="L2";
4
5	RUN;
6

Resultado :
Se crean las tablas 'vecinos' y 'distancias' en la librería activa con los resultados detallados del análisis.

FAQ

¿Cuál es la función principal de la acción fastknn?

¿Cuáles son los parámetros obligatorios para ejecutar esta acción?

¿Qué métricas de distancia están disponibles y cuál es la predeterminada?

¿Cómo se puede gestionar la imputación de valores faltantes?

¿Qué métodos de búsqueda ofrece la acción fastknn?

¿Cómo se especifica el número de vecinos que se deben devolver?

¿Para qué sirve el parámetro 'outDist'?

¿Qué controlan los parámetros 'efConstruction' y 'efSearch'?

¿Cómo se guardan los vecinos calculados?

¿Es posible limitar la salida de distancias a solo las k más cercanas?

Tabla de contenidos

Descripción

Creación de datos de entrenamiento y consulta

Ejemplos

Búsqueda simple de k vecinos más cercanos

Búsqueda detallada con tablas de salida

FAQ