Adieu l'échantillonnage : Analysez 100% de vos Big Data Hive pour des modèles statistiques plus robustes

Niveau de difficulté

Débutant

Publié le : 22/03/2023

Le Conseil de l'Expert

Michael
Responsable de l'infrastructure Viya.

Le connecteur Hadoop est la passerelle essentielle pour orchestrer les échanges entre votre Data Lake (Hive) et la puissance analytique de SAS Viya (CAS). Depuis la version 2023.10, cette connectivité repose sur le pilote JDBC Simba Apache Hive, garantissant une meilleure compatibilité standard.

L'expert distingue trois piliers pour une configuration optimale :

La Connectivité : Choix entre une connexion directe au NameNode ou une découverte dynamique via ZooKeeper (recommandée pour la haute disponibilité).

La Performance (Parallélisme) : C'est le point critique. Par défaut, le transfert est "sériel" (lent). Pour les gros volumes, il est impératif d'activer le chargement parallèle. Cela nécessite le déploiement de SAS Embedded Process (EP) sur le cluster Hadoop pour distribuer la charge.

La Sécurité : Le connecteur s'intègre nativement avec Kerberos, nécessitant une configuration précise du Realm et du Service Name.

Le connecteur de données Hadoop facilite le transfert de données entre les entrepôts de données Hive et SAS^© Cloud Analytic Services (CAS) sur la plateforme SAS^© Viya^™. Il gère les connexions aux tables Hive, permettant le chargement de données dans CAS. Les fonctionnalités clés incluent la connexion avec ou sans découverte de service dynamique (via ZooKeeper), l'authentification Kerberos, et la capacité de chargement de données en parallèle. Le chargement parallèle nécessite l'installation des technologies SAS^© In-Database et du processus SAS^© Embedded. Le connecteur supporte les types de données Hive en les convertissant vers des types de données CAS appropriés, avec une gestion spécifique pour les données VARCHAR et les types entiers en termes de longueur et de précision. Depuis la version 2023.10, SAS^© utilise le connecteur JDBC Simba Apache Hive pour la connectivité.

Analyse des données

Type : CREATION_INTERNE

Les exemples utilisent des données générées (datalines) ou des placeholders pour les connexions à des sources externes (Hive).

1 Bloc de code

CASLIB Data

Explication :
Cet exemple montre la création d'un caslib pour se connecter à un serveur Hive sans utiliser la découverte de service dynamique (ZooKeeper) ni l'accès HDFS. L'option `bulkload=false` est spécifiée car l'accès HDFS n'est pas configuré. Remplacez `your_hive_server`, `your_username`, `your_password`, et `your_schema` par vos propres informations de connexion.

Copié !

1	/* Connexion basique à Hive sans accès HDFS direct */
2	/* Les valeurs entre crochets angulaires (<>) doivent être remplacées par vos informations */
3
4	caslib hvcaslib_basic desc='Caslib Hadoop Basique'
5	dataSource=(srctype='hadoop',
6	server='your_hive_server',
7	username='your_username',
8	password='your_password',
9	schema='your_schema',
10	bulkload=false);
11
12	/* Charger et activer le caslib */
13	PROC CAS;
14	SESSION casauto;
15	caslib _all_ assign;
16	RUN;
17
18	/* Afficher les informations sur le caslib */
19	PROC CAS;
20	SESSION casauto;
21	caslib hvcaslib_basic info;
22	RUN;
23	QUIT;

2 Bloc de code

CASLIB Data

Explication :
Cet exemple configure un caslib Hadoop qui utilise ZooKeeper pour la découverte de service dynamique. Il est idéal pour les environnements HiveServer2 en mode haute disponibilité. Les options `zooKeeperQuorum`, `zooKeeperNamespace` et `zooKeeperPort` sont utilisées pour spécifier les informations de connexion à ZooKeeper. Assurez-vous de remplacer les placeholders par les valeurs réelles de votre environnement, y compris les chemins vers les répertoires de jars et de configuration Hadoop, ainsi que les informations ZooKeeper et d'authentification.

Copié !

1	/* Connexion à Hive avec découverte de service dynamique via ZooKeeper */
2	/* Les valeurs entre crochets angulaires (<>) doivent être remplacées par vos informations */
3
4	caslib zoocaslib desc='Caslib ZooKeeper Hadoop'
5	dataSource=(srctype='hadoop',
6	username='your_username',
7	password='your_password',
8	dataTransferMode='serial',
9	hadoopJarPath='<Hadoop_jar_path_directory>',
10	hadoopConfigDir='<Hadoop_configuration_directory>',
11	zooKeeperQuorum="<node1.company.com>,<node2.company.com>,<node3.company.com>",
12	zooKeeperNamespace='hiveserver2',
13	zooKeeperPort=2181,
14	schema='your_schema');
15
16	/* Charger et activer le caslib */
17	PROC CAS;
18	SESSION casauto;
19	caslib _all_ assign;
20	RUN;
21
22	/* Afficher les informations sur le caslib */
23	PROC CAS;
24	SESSION casauto;
25	caslib zoocaslib info;
26	RUN;
27	QUIT;

3 Bloc de code

CASLIB Data

Explication :
Cet exemple illustre la connexion à un serveur Hive configuré avec l'authentification Kerberos. Les options `krbAuthType`, `krbHostFQDN`, `krbRealm`, et `krbServiceName` sont essentielles pour transmettre les propriétés de connexion Kerberos au pilote Simba. Remplacez les placeholders comme `your_hive_server`, `your_schema`, `myhost.company.com`, et `example.com` par les valeurs appropriées de votre environnement Kerberos.

Copié !

1	/* Connexion à Hive avec authentification Kerberos */
2	/* Les valeurs entre crochets angulaires (<>) doivent être remplacées par vos informations */
3
4	caslib hadoopkrb desc='Caslib Hadoop Kerberos'
5	dataSource=(srctype='hadoop',
6	server='your_hive_server',
7	schema='your_schema',
8	use_ssl=true,
9	krbAuthType=2,
10	krbHostFQDN='<myhost.company.com>',
11	krbRealm='<example.com>',
12	krbServiceName='hive',
13	bulkload=false);
14
15	/* Charger et activer le caslib */
16	PROC CAS;
17	SESSION casauto;
18	caslib _all_ assign;
19	RUN;
20
21	/* Afficher les informations sur le caslib */
22	PROC CAS;
23	SESSION casauto;
24	caslib hadoopkrb info;
25	RUN;
26	QUIT;

4 Bloc de code

PROC CASUTIL Data

Explication :
Cet exemple illustre la configuration d'un caslib pour le chargement parallèle de données depuis Hive vers CAS, puis utilise `PROC CASUTIL` pour effectuer ce chargement. Pour rendre cet exemple autonome, une table CAS nommée `myHDdata` est d'abord créée pour simuler les données qui seraient normalement lues depuis Hive. Les options `dataTransferMode="parallel"`, `jobManagementURL`, `hadoopConfigDir` et `bulkLoad=false` sont cruciales pour activer le chargement parallèle. Remplacez les placeholders comme `your_hive_server`, `your_schema`, `your_username`, `your_password`, `Livy_URL`, et `path-to-EP-config-files` par les valeurs spécifiques à votre installation Hadoop/Hive.

Copié !

1	/* Création d'une table CAS de démonstration pour simuler une source Hive */
2	DATA casuser.myHDdata;
3	INPUT id $ name $ value;
4	DATALINES;
5	1 Apple 10
6	2 Banana 20
7	3 Cherry 30
8	4 Date 40
9	;
10	RUN;
11
12	/* Connexion à Hive avec chargement parallèle activé */
13	/* Les valeurs entre crochets angulaires (<>) doivent être remplacées par vos informations */
14
15	caslib hvcaslib_parallel desc='Caslib Hadoop avec Chargement Parallèle'
16	dataSource=(srctype='hadoop',
17	server='your_hive_server',
18	schema='your_schema',
19	username='your_username',
20	password='your_password',
21	dataTransferMode="parallel",
22	jobManagementURL='<Livy_URL>',
23	hadoopConfigDir='<path-to-EP-config-files>',
24	bulkLoad=false);
25
26	/* Charger et activer le caslib */
27	PROC CAS;
28	SESSION casauto;
29	caslib _all_ assign;
30	RUN;
31
32	/* Charger la table 'myHDdata' de Hive (simulée ici par la table CAS) dans CAS */
33	/* En pratique, 'myHDdata' serait une table existante dans Hive */
34	PROC CASUTIL;
35	list files incaslib="hvcaslib_parallel";
36	load casdata="myHDdata" incaslib="hvcaslib_parallel" outcaslib="casuser"
37	casout="HDdata_from_hvcaslib_parallel";
38	list tables incaslib="casuser";
39	contents casdata="HDdata_from_hvcaslib_parallel" incaslib="casuser";
40	RUN;
41	QUIT;

L'Astuce Pro

Soyez attentif aux types VARCHAR de Hive. Lors du passage vers CAS, la longueur et la précision doivent être gérées pour éviter la troncature ou une consommation mémoire excessive.

Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.

Documentation liée

FedSQL et SAS Viya : Optimisez vos requêtes SQL multi-threadées

FedSQL est une implémentation propriétaire de SAS de la norme ANSI SQL:1999, offrant un accès évo...

Fonctionnement des Moteurs avec les Fichiers

Ce document explique comment les moteurs SAS gèrent l'accès et le traitement des fichiers de donn...

Architecture de données SAS : Gérez vos tables comme un pro entre stockage temporaire et permanent

Ce document décrit les bibliothèques SAS par défaut (Work, User, Sashelp, Sasuser) fournies par S...

Data Science : Optimisez vos flux de données complexes avec les moteurs SAS

Ce document décrit les caractéristiques des moteurs SAS, incluant un résumé des moteurs courammen...

Adieu l'échantillonnage : Analysez 100% de vos Big Data Hive pour des modèles statistiques plus robustes

Niveau de difficulté

Publié le : 22/03/2023

Le Conseil de l'Expert

Analyse des données

1 Bloc de code

2 Bloc de code

3 Bloc de code

4 Bloc de code

L'Astuce Pro

FedSQL et SAS Viya : Optimisez vos requêtes SQL multi-threadées

Définitions des Moteurs SAS

Architecture de données SAS : Gérez vos tables comme un pro entre stockage temporaire et permanent

Fonctionnement des Moteurs avec les Fichiers

Data Science : Optimisez vos flux de données complexes avec les moteurs SAS

Définitions des Moteurs SAS

Documentation liée

FedSQL et SAS Viya : Optimisez vos requêtes SQL multi-threadées

Fonctionnement des Moteurs avec les Fichiers

Architecture de données SAS : Gérez vos tables comme un pro entre stockage temporaire et permanent

Data Science : Optimisez vos flux de données complexes avec les moteurs SAS