Publicado el :
Acceso a datos CREATION_INTERNE

Ejemplo: Leer una tabla ORC desde ADLS

Este código también está disponible en: Deutsch English Français
En espera de validación
El acceso a las tablas ORC almacenadas en Azure Data Lake Storage Gen2 (ADLS) se realiza a través de la instrucción LIBNAME. La opción 'DIRECTORIES_AS_DATA=YES' es esencial para leer tablas Hive almacenadas como directorios. Los identificadores de cuenta de almacenamiento y aplicación de Azure son necesarios para la autenticación. El ejemplo está diseñado para ser ejecutable en un entorno SAS© Viya 4, basándose en la existencia previa de una tabla ORC en ADLS, en este caso una tabla 'inventory'. Se añade un paso de creación de datos SAS© para hacer el ejemplo autónomo según los requisitos, incluso si en el escenario original, esta tabla se crea mediante Hive.
Análisis de datos

Type : CREATION_INTERNE


El ejemplo crea una tabla SAS temporal 'inventory' utilizando un paso DATA con 'datalines'. Esta tabla simula la estructura y los datos de una tabla Hive ORC para hacer el ejemplo autónomo.

1 Bloque de código
DATA STEP Data
Explicación :
Este paso DATA crea un conjunto de datos SAS temporal llamado 'inventory' con las mismas columnas y datos que la tabla Hive original. En un escenario real para leer desde ADLS, esta tabla 'inventory' debería convertirse al formato ORC y subirse a su cuenta de Azure Data Lake Storage Gen2.
¡Copiado!
1DATA work.inventory;
2 LENGTH descr $32;
3 FORMAT day YYYYMMDD10.;
4 INPUT item descr $ price day:YYMMDD10.;
5 DATALINES;
64600 incandescent A19 15.54 2019-10-17
71023 led A19 14.97 2019-10-17
81023 incandescent B10 5.49 2019-10-16
94219 incandescent E12 3.97 2019-10-15
10;
11RUN;
2 Bloque de código
LIBNAME / PROC PRINT
Explicación :
La instrucción LIBNAME asigna el libref 'mylib' al motor ORC, apuntando a una ubicación en Azure. Las opciones 'storage_account_name', 'storage_application_id' y 'storage_file_system' se utilizan para configurar la conexión a la cuenta ADLS. La opción 'directories_as_data=yes' es crucial para permitir el acceso a las tablas Hive almacenadas como directorios. El procedimiento PRINT muestra luego el contenido de la tabla ORC 'mylib.inventory' leída desde ADLS. Reemplace 'myacct', 'b1fc955d5c-e0e2-45b3-a3cc-a1cf54120f' y 'myorcdata' con su propia información de cuenta de almacenamiento de Azure. 'data/user' representa la ruta de acceso al archivo ORC en ADLS.
¡Copiado!
1LIBNAME mylib orc '/data/user'
2 storage_account_name = myacct
3 storage_application_id = 'b1fc955d5c-e0e2-45b3-a3cc-a1cf54120f'
4 storage_file_system = myorcdata
5 directories_as_data=yes
6 ;
7PROC PRINT DATA=mylib.inventory noobs;
8RUN;
Este material se proporciona "tal cual" por We Are Cas. No hay garantías, expresas o implícitas, en cuanto a la comerciabilidad o idoneidad para un propósito particular con respecto a los materiales o el código contenidos en este documento. We Are Cas no es responsable de los errores en este material tal como existe ahora o existirá, ni We Are Cas proporciona soporte técnico para el mismo.
Información de copyright : Copyright © SAS Institute Inc. All Rights Reserved