Publicado el :

Lectura de una tabla ORC desde ADLS

Este código también está disponible en: Deutsch English Français
En espera de validación
Este ejemplo ilustra la lectura de una tabla ORC almacenada en Azure Data Lake Storage Gen2. Para acceder a las tablas creadas por Hive y almacenadas como directorios, la opción DIRECTORIES_AS_DATA=YES debe especificarse en la instrucción LIBNAME. El código SAS© presentado lee una tabla 'inventory' creada previamente en Hive.
Análisis de datos

Type : EXTERNAL


El ejemplo SAS lee una tabla 'inventory' en formato ORC que debe crearse previamente en Azure ADLS. Los comandos Hive para la creación de esta tabla se proporcionan como requisitos previos en el primer bloque de código. El ejemplo SAS no crea sus propios datos internamente.

1 Bloque de código
HiveQL Data
Explicación :
Este bloque de código HiveQL es un requisito previo para el ejemplo SAS. Crea una tabla llamada 'inventory' en formato ORC en la ruta '/mydata/inventory' de Azure ADLS e inserta algunos registros. Esta tabla será leída posteriormente por el código SAS. Este código debe ejecutarse en un entorno Hive apropiado antes de ejecutar el código SAS.
¡Copiado!
1CREATE TABLE inventory(item INT, descr CHAR(32), price DOUBLE, day DATE) STORED AS ORC LOCATION '/mydata/inventory';
2INSERT INTO inventory VALUES(4600, 'incandescent A19', 15.54, '2019-10-17');
3INSERT INTO inventory VALUES(1023, 'led A19', 14.97, '2019-10-17');
4INSERT INTO inventory VALUES(1023, 'incandescent B10', 5.49, '2019-10-16');
5INSERT INTO inventory VALUES(4219, 'incandescent E12', 3.97, '2019-10-15');
6SELECT * FROM inventory;
2 Bloque de código
LIBNAME ORC
Explicación :
Esta instrucción LIBNAME `mylib` conecta SAS a una ubicación de Azure Data Lake Storage (ADLS) utilizando el motor ORC. Especifica el nombre de la cuenta de almacenamiento (`storage_account_name`), el ID de aplicación de almacenamiento (`storage_application_id`) y el sistema de archivos de almacenamiento (`storage_file_system`). La opción `directories_as_data=yes` es esencial para que SAS reconozca y acceda a las tablas Hive almacenadas como directorios en ADLS. Finalmente, la procedimiento PROC PRINT se utiliza para mostrar el contenido de la tabla ORC `mylib.inventory`.
¡Copiado!
1LIBNAME mylib orc '/data/user' /*1*/
2 storage_account_name = myacct
3 storage_application_id = 'b1fc955d5c-e0e2-45b3-a3cc-a1cf54120f'
4 storage_file_system = myorcdata
5 directories_as_data=yes /*2*/
6 ;
7PROC PRINT DATA=mylib.inventory noobs; /*3*/
8RUN;
Este material se proporciona "tal cual" por We Are Cas. No hay garantías, expresas o implícitas, en cuanto a la comerciabilidad o idoneidad para un propósito particular con respecto a los materiales o el código contenidos en este documento. We Are Cas no es responsable de los errores en este material tal como existe ahora o existirá, ni We Are Cas proporciona soporte técnico para el mismo.