gpReg - WeAreCAS

Tabla de contenidos

Descripción

Aprende un modelo de regresión de procesos gaussianos.

nonParametricBayes.gpReg <result=resultados> <status=rc> / applyRowOrder=TRUE | FALSE, attributes={{format="cadena", formattedLength=entero, label="cadena", name="nombre-variable", nfd=entero, nfl=entero}, {...}}, autoRelevanceDetermination=TRUE | FALSE, display={caseSensitive=TRUE | FALSE, exclude=TRUE | FALSE, excludeAll=TRUE | FALSE, keyIsPath=TRUE | FALSE, names={"cadena-1" <, "cadena-2", ...>}, pathType="LABEL" | "NAME", traceNames=TRUE | FALSE}, fixInducingPoints=TRUE | FALSE, fixKernelParmFirstIter=TRUE | FALSE, inputs={{format="cadena", formattedLength=entero, label="cadena", name="nombre-variable", nfd=entero, nfl=entero}, {...}}, jitterMaxIters=entero, kernel="LINEAR" | "MATERN32" | "MATERN52" | "PERIODIC" | "RBF", nInducingPoints=entero, nloOpts={algorithm="ADAM" | "SGD", optmlOpt={clipWeightMaxNorm=doble, fConv=doble, fConvWindow=entero-64bits, gTol=doble, maxEvals=entero-64bits, maxIters=entero-64bits, maxTime=doble, regL1=doble, regL2=doble}, printOpt={logLevel=entero-64bits, printFreq=entero-64bits, printLevel="PRINTBASIC" | "PRINTDETAIL" | "PRINTNONE"}, sgdOpt={adaptiveDecay=doble, adaptiveRate=TRUE | FALSE, annealingRate=doble, commFreq=entero-64bits, learningRate=doble, miniBatchSize=entero-64bits, momentum=doble, seed=entero-64bits, useLocking=TRUE | FALSE}, validate={frequency=entero-64bits, goal=doble, stagnation=entero-64bits, threshold=doble, thresholdIter=entero-64bits}}, outInducingPoints={caslib="cadena", compress=TRUE | FALSE, indexVars={"nombre-variable-1" <, "nombre-variable-2", ...>}, label="cadena", lifetime=entero-64bits, maxMemSize=entero-64bits, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="nombre-tabla", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=entero, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=entero-64bits, timeStamp="cadena", where={"cadena-1" <, "cadena-2", ...>}}, output={casOut={caslib="cadena", compress=TRUE | FALSE, indexVars={"nombre-variable-1" <, "nombre-variable-2", ...>}, label="cadena", lifetime=entero-64bits, maxMemSize=entero-64bits, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="nombre-tabla", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=entero, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=entero-64bits, timeStamp="cadena", where={"cadena-1" <, "cadena-2", ...>}}, copyVars="ALL" | "ALL_MODEL" | "ALL_NUMERIC" | {"nombre-variable-1" <, "nombre-variable-2", ...>}, role="cadena"}, outputTables={groupByVarsRaw=TRUE | FALSE, includeAll=TRUE | FALSE, names={"cadena-1" <, "cadena-2", ...>} | {clave-1={casouttable-1} <, clave-2={casouttable-2}, ...>}, repeated=TRUE | FALSE, replace=TRUE | FALSE}, outVariationalCov={caslib="cadena", compress=TRUE | FALSE, indexVars={"nombre-variable-1" <, "nombre-variable-2", ...>}, label="cadena", lifetime=entero-64bits, maxMemSize=entero-64bits, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="nombre-tabla", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=entero, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=entero-64bits, timeStamp="cadena", where={"cadena-1" <, "cadena-2", ...>}}, partByFrac={seed=entero, test=doble, validate=doble}, partByVar={name="nombre-variable", test="cadena", train="cadena", validate="cadena"}, saveState={caslib="cadena", label="cadena", lifetime=entero-64bits, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="nombre-tabla", promote=TRUE | FALSE, replace=TRUE | FALSE, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE"}, seed=doble, table={caslib="cadena", computedOnDemand=TRUE | FALSE, computedVars={{format="cadena", formattedLength=entero, label="cadena", name="nombre-variable", nfd=entero, nfl=entero}, {...}}, computedVarsProgram="cadena", dataSourceOptions={clave-1=cualquier-lista-o-tipo-de-dato-1 <, clave-2=cualquier-lista-o-tipo-de-dato-2, ...>}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", parametros-especificos-del-tipo-de-archivo}, name="nombre-tabla", singlePass=TRUE | FALSE, vars={{format="cadena", formattedLength=entero, label="cadena", name="nombre-variable", nfd=entero, nfl=entero}, {...}}, where="expresion-where", whereTable={casLib="cadena", dataSourceOptions={adls_noreq-parametros | bigquery-parametros | cas_noreq-parametros | clouddex-parametros | db2-parametros | dnfs-parametros | esp-parametros | fedsvr-parametros | gcs_noreq-parametros | hadoop-parametros | hana-parametros | impala-parametros | informix-parametros | jdbc-parametros | mongodb-parametros | mysql-parametros | odbc-parametros | oracle-parametros | path-parametros | postgres-parametros | redshift-parametros | s3-parametros | sapiq-parametros | sforce-parametros | singlestore_standard-parametros | snowflake-parametros | spark-parametros | spde-parametros | sqlserver-parametros | ss_noreq-parametros | teradata-parametros | vertica-parametros | yellowbrick-parametros}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", parametros-especificos-del-tipo-de-archivo}, name="nombre-tabla", vars={{format="cadena", formattedLength=entero, label="cadena", name="nombre-variable", nfd=entero, nfl=entero}, {...}}, where="expresion-where"}}, target="nombre-variable", useSimpleInit=TRUE | FALSE ;

Parámetros

Parámetro	Descripción
applyRowOrder	Especifica que la acción utiliza un orden de filas preespecificado. Esto requiere el uso de los parámetros orderby y groupby en una llamada de acción table.partition preliminar.
attributes	Cambia los atributos de las variables utilizadas en esta acción. Actualmente, los atributos especificados en el parámetro inputs y nominals se ignoran. Para obtener más información sobre cómo especificar el parámetro attributes, consulte el parámetro común casinvardesc (Apéndice A: Parámetros comunes).
autoRelevanceDetermination	Cuando se establece en True, utiliza la determinación automática de relevancia en la función del kernel.
display	Especifica una lista de tablas de resultados para enviar al cliente para su visualización. Para obtener más información sobre cómo especificar el parámetro display, consulte el parámetro común displayTables (Apéndice A: Parámetros comunes).
fixInducingPoints	Cuando se establece en True, fija los puntos inductores en la optimización.
fixKernelParmFirstIter	Cuando se establece en True, fija los parámetros del kernel en la primera iteración.
inputs	Especifica las variables a utilizar para el análisis. Para obtener más información sobre cómo especificar el parámetro inputs, consulte el parámetro común casinvardesc (Apéndice A: Parámetros comunes).
jitterMaxIters	Especifica el número máximo de iteraciones para la descomposición de Cholesky con fluctuación.
kernel	Especifica el tipo de función del kernel para las distribuciones gaussianas en el modelo de regresión de procesos gaussianos. - LINEAR: Utiliza un kernel lineal. - MATERN32: Utiliza un kernel Matern 3/2. - MATERN52: Utiliza un kernel Matern 5/2. - PERIODIC: Utiliza un kernel periódico. - RBF: Utiliza un kernel de función de base radial.
nInducingPoints	Especifica el número de puntos inductores.
nloOpts	Especifica las opciones de optimización. El valor casOptml puede ser uno o más de los siguientes: - algorithm: Especifica el solucionador de optimización a utilizar. - ADAM: Utiliza la variante de momentos adaptativos del solucionador de descenso de gradiente estocástico. - SGD: Utiliza el solucionador de descenso de gradiente estocástico (SGD). - optmlOpt: Especifica las opciones comunes a todos los solucionadores. - clipWeightMaxNorm: Especifica la norma L2 máxima del vector de pesos. Los vectores de pesos con una norma L2 mayor se escalan a este valor. - fConv: Especifica un criterio de parada. El solucionador LBFGS se detiene cuando el objetivo no cambia más de este valor durante al menos tantas iteraciones como se especifican en el parámetro fConvWindow. - fConvWindow: Especifica una ventana de iteración para la aplicación del criterio de convergencia del solucionador LBFGS que se especifica en el parámetro fConv. - gTol: Especifica la tolerancia de parada para el error de optimalidad de primer orden. - maxEvals: Especifica el número máximo de evaluaciones de función para una sola optimización o entrenamiento. - maxIters: Especifica el número máximo de iteraciones para una sola optimización o entrenamiento. - maxTime: Especifica el tiempo máximo (en segundos) para una sola optimización o entrenamiento. - regL1: Especifica el parámetro de regularización L1; el valor debe ser no negativo. - regL2: Especifica el parámetro de regularización L2; el valor debe ser no negativo. - printOpt: Especifica las opciones para enviar información al registro e imprimir la tabla del historial de iteraciones. - logLevel: Especifica el nivel de visualización de la salida. - printFreq: Especifica la frecuencia con la que se imprime el registro de iteraciones. - printLevel: Especifica el nivel de detalle en las filas de la tabla del historial de iteraciones. - PRINTBASIC: Imprime solo información básica en la tabla del historial de iteraciones. - PRINTDETAIL: Imprime información detallada en la tabla del historial de iteraciones. - PRINTNONE: Deshabilita la impresión de la tabla del historial de iteraciones. - sgdOpt: Especifica las opciones para el solucionador de descenso de gradiente estocástico (SGD). - adaptiveDecay: Especifica la tasa a la que el segundo momento del gradiente se decae durante cada iteración de SGD. - adaptiveRate: Cuando se establece en True, utiliza el segundo momento del vector de gradiente para escalar la tasa de aprendizaje para SGD. - annealingRate: Especifica el parámetro de recocido. - commFreq: Especifica el número de minilotes que cada hilo computacional procesa antes de que los pesos se sincronicen en todos los hilos y nodos. - learningRate: Especifica el parámetro de tasa de aprendizaje para SGD. - miniBatchSize: Especifica el tamaño de los minilotes a utilizar en SGD. - momentum: Especifica el impulso para SGD. - seed: Especifica el valor inicial para la generación de números aleatorios en el acceso aleatorio de observaciones en cada hilo para el algoritmo SGD. - useLocking: Cuando se establece en True, utiliza bloqueos para realizar la agregación de hilos; cuando se establece en False, utiliza una operación atómica (no determinista). - validate: Especifica las opciones para validar modelos. - frequency: Especifica la frecuencia (en épocas) con la que se produce la validación. - goal: Especifica un objetivo para la tasa de clasificación errónea de validación. Cuando la tasa de clasificación errónea cae por debajo de este objetivo, la optimización se detiene. - stagnation: Especifica un número de validaciones consecutivas con tasas de clasificación errónea crecientes que se permiten antes de que la optimización finalice anticipadamente. - threshold: Especifica el umbral de parada temprana para el error de validación. Si el error de validación es mayor que este valor en la iteración especificada en el parámetro thresholdIter, la optimización se detiene. - thresholdIter: Especifica la iteración en la que se comprueba el umbral de parada temprana (especificado en el parámetro threshold).
outInducingPoints	Especifica la tabla de datos de salida en la que se guarda la media estimada y la desviación estándar en los puntos inductores. Para obtener más información sobre cómo especificar el parámetro outInducingPoints, consulte el parámetro común casouttable (Formulario 1) (Apéndice A: Parámetros comunes).
output	Especifica la tabla de datos de salida en la que se guardan las observaciones puntuadas. El valor de gpRegOutputStatement puede ser uno o más de los siguientes: - casOut: Especifica la configuración de una tabla de salida. Para obtener más información sobre cómo especificar el parámetro casOut, consulte el parámetro común casouttable (Formulario 1) (Apéndice A: Parámetros comunes). - copyVars: Especifica una lista de una o más variables a copiar de la tabla de entrada a la tabla de salida. Alternativamente, puede especificar el valor ALL, ALL_MODEL o ALL_NUMERIC, que copia todas las variables, todas las variables utilizadas en el modelado o todas las variables numéricas de la tabla de entrada a la tabla de salida, respectivamente. - role: Cambia el nombre de la columna generada _ROLE_ en la tabla de datos de salida al nombre de rol especificado.
outputTables	Enumera los nombres de las tablas de resultados para guardar como tablas CAS en el servidor. Para obtener más información sobre cómo especificar el parámetro outputTables, consulte el parámetro común outputTables (Apéndice A: Parámetros comunes).
outVariationalCov	Especifica la tabla de datos de salida en la que se guarda la matriz de covarianza de la distribución variacional estimada en los puntos inductores. Para obtener más información sobre cómo especificar el parámetro outVariationalCov, consulte el parámetro común casouttable (Formulario 1) (Apéndice A: Parámetros comunes).
partByFrac	Asigna aleatoriamente proporciones específicas de las observaciones en la tabla de entrada a roles de entrenamiento y validación. Las observaciones se dividen lógicamente en subconjuntos disjuntos para el entrenamiento, la validación y la prueba del modelo. El valor de partByFracStatement puede ser uno o más de los siguientes: - seed: Especifica la semilla a utilizar en el generador de números aleatorios que se utiliza para dividir los datos. - test: Asigna aleatoriamente la proporción especificada de observaciones en la tabla de entrada al rol de prueba. La suma de las fracciones que se especifican en los parámetros test y validate debe ser inferior a 1. - validate: Asigna aleatoriamente la proporción especificada de observaciones en la tabla de entrada al rol de validación. La suma de las fracciones que se especifican en los parámetros test y validate debe ser inferior a 1.
partByVar	Especifica la variable en los datos de entrada cuyos valores se utilizan para asignar roles a cada observación. Las observaciones se dividen lógicamente en subconjuntos disjuntos para el entrenamiento, la validación y la prueba del modelo. El valor de partByVarStatement puede ser uno o más de los siguientes: - name: Nombra la variable en la tabla de entrada cuyos valores se utilizan para asignar roles a cada observación. - test: Especifica el valor formateado de la variable que se utiliza para asignar observaciones al rol de prueba. - train: Especifica el valor formateado de la variable que se utiliza para asignar observaciones al rol de entrenamiento. Si no se especifica el parámetro train, todas las observaciones cuyos roles no estén determinados por los parámetros test y validate se asignan a entrenamiento. - validate: Especifica el valor formateado de la variable que se utiliza para asignar observaciones al rol de validación.
saveState	Especifica la tabla de datos de salida en la que se guarda el estado de la regresión del proceso gaussiano para futuras puntuaciones. El valor de casouttable puede ser uno o más de los siguientes: - caslib: Especifica el caslib para la tabla de salida. - label: Especifica la etiqueta descriptiva que se asociará a la tabla. - lifetime: Especifica el número de segundos que se mantiene la tabla en memoria después de su último acceso. La tabla se elimina si no se accede a ella durante el número de segundos especificado. - memoryFormat: Especifica el formato de memoria para la tabla de salida. - DVR: Utiliza el formato de memoria de reducción de valores duplicados. Este formato de memoria puede reducir el consumo de memoria y el tamaño del archivo cuando los datos de entrada contienen valores duplicados. - INHERIT: Utiliza el formato de memoria predeterminado que se establece para el servidor. Por defecto, el servidor utiliza el formato de memoria estándar. Si un administrador establece la variable de entorno CAS_DEFAULT_MEMORY_FORMAT en DVR, el formato de memoria DVR se establece como predeterminado para el servidor. - STANDARD: Utiliza el formato de memoria estándar. - name: Especifica el nombre de la tabla de salida. - promote: Cuando se establece en True, añade la tabla de salida con un ámbito global. Esto permite que otras sesiones accedan a la tabla, sujeto a los controles de acceso. El caslib de destino también debe tener un ámbito global. - replace: Cuando se establece en True, sobrescribe una tabla existente que tiene el mismo nombre. - tableRedistUpPolicy: Especifica la política de redistribución de tablas cuando el número de pods de trabajo aumenta en un servidor CAS en ejecución. - DEFER: Posponer la selección de la política de redistribución a una entidad de nivel superior. - NOREDIST: No redistribuir los datos de la tabla cuando el número de pods de trabajo cambie en un servidor CAS en ejecución. - REBALANCE: Reequilibrar los datos de la tabla cuando el número de pods de trabajo cambie en un servidor CAS en ejecución.
seed	Especifica el valor inicial para la generación de números aleatorios en la inicialización de parámetros y la agrupación.
table	Especifica la configuración de una tabla de entrada. El valor de castable puede ser uno o más de los siguientes: - caslib: Especifica el caslib para la tabla de entrada que desea utilizar con la acción. Por defecto, se utiliza el caslib activo. Especifique un valor solo si necesita acceder a una tabla de un caslib diferente. - computedOnDemand: Cuando se establece en True, crea las variables calculadas cuando la tabla se carga en lugar de cuando comienza la acción. - computedVars: Especifica los nombres de las variables calculadas a crear. Especifique una expresión para cada variable en el parámetro computedVarsProgram. Si no especifica este parámetro, todas las variables de computedVarsProgram se incluyen automáticamente. El valor de casinvardesc puede ser uno o más de los siguientes: - format: Especifica el formato a aplicar a la variable. - formattedLength: Especifica la longitud del campo de formato más la longitud de la precisión del formato. - label: Especifica la etiqueta descriptiva para la variable. - name: Especifica el nombre de la variable. - nfd: Especifica la longitud de la precisión del formato. - nfl: Especifica la longitud del campo de formato. - computedVarsProgram: Especifica una expresión para cada variable calculada que incluya en el parámetro computedVars. - dataSourceOptions: Especifica las opciones de la fuente de datos. - importOptions: Especifica la configuración para leer una tabla de una fuente de datos. Para obtener más información sobre cómo especificar el parámetro importOptions, consulte el parámetro común importOptions (Apéndice A: Parámetros comunes). - name: Especifica el nombre de la tabla de entrada. - singlePass: Cuando se establece en True, no crea una tabla transitoria en el servidor. Establecer este parámetro en True puede ser eficiente, pero es posible que los datos no tengan un orden estable en ejecuciones repetidas. - vars: Especifica las variables a utilizar en la acción. El valor de casinvardesc puede ser uno o más de los siguientes: - format: Especifica el formato a aplicar a la variable. - formattedLength: Especifica la longitud del campo de formato más la longitud de la precisión del formato. - label: Especifica la etiqueta descriptiva para la variable. - name: Especifica el nombre de la variable. - nfd: Especifica la longitud de la precisión del formato. - nfl: Especifica la longitud del campo de formato. - where: Especifica una expresión para subconjuntar los datos de entrada. - whereTable: Especifica una tabla de entrada que contiene filas para usar como filtro WHERE. Si no se especifica el parámetro vars, todas las variables que son comunes a la tabla de entrada y la tabla de filtrado se utilizan para encontrar filas coincidentes. Si se especifican el parámetro where para la tabla de entrada y este parámetro, esta tabla de filtrado se aplica primero. El valor de groupbytable puede ser uno o más de los siguientes: - casLib: Especifica el caslib para la tabla de filtro. Por defecto, se utiliza el caslib activo. - dataSourceOptions: Especifica las opciones de la fuente de datos. Para obtener más información sobre cómo especificar el parámetro dataSourceOptions, consulte el parámetro común dataSourceOptions (Apéndice A: Parámetros comunes). - importOptions: Especifica la configuración para leer una tabla de una fuente de datos. Para obtener más información sobre cómo especificar el parámetro importOptions, consulte el parámetro común importOptions (Apéndice A: Parámetros comunes). - name: Especifica el nombre de la tabla de filtro. - vars: Especifica los nombres de las variables a utilizar de la tabla de filtro. El valor de casinvardesc puede ser uno o más de los siguientes: - format: Especifica el formato a aplicar a la variable. - formattedLength: Especifica la longitud del campo de formato más la longitud de la precisión del formato. - label: Especifica la etiqueta descriptiva para la variable. - name: Especifica el nombre de la variable. - nfd: Especifica la longitud de la precisión del formato. - nfl: Especifica la longitud del campo de formato. - where: Especifica una expresión para subconjuntar los datos de la tabla de filtro.
target	Especifica la variable objetivo a utilizar para el análisis.
useSimpleInit	Cuando se establece en True, utiliza una inicialización de parámetros simple para la optimización.

Ejemplos

Actions associées

nonParametricBayes

gmm

Modelo de mezcla gaussiana. Este conjunto de acciones de Bayes no paramétrico...

nonParametricBayes

gpClass

Clasificación de procesos gaussianos.