SAS VIYA Guide

Arrêtez d'importer vos données ! Comment DuckDB dans SAS Viya va faire exploser vos performances

Michael 21 Aufrufe
Schwierigkeitsgrad
Expert
Veröffentlicht am :
Michael

Expertenrat

Michael

L'intégration de DuckDB dans SAS Viya marque la fin du paradigme de l'import systématique : en exploitant le moteur vectorisé directement dans votre session Compute, vous éliminez les goulots d'étranglement réseau habituels. Mon conseil : utilisez DuckDB pour prétraiter vos fichiers Parquet ou Cloud massifs en SQL ultra-rapide avant de ne charger dans CAS que le set de données final, optimisé et filtré, pour vos analyses avancées

Vous perdez encore un temps fou à importer de massifs fichiers de données dans votre environnement de travail ? Arrêtez tout. L'écosystème SAS© Viya vient d'intégrer une fonctionnalité qui va littéralement transformer votre quotidien de développeur et de Data Engineer : DuckDB.

Si vous n'avez pas encore entendu parler de cette base de données analytique qui affole la sphère Data, préparez-vous à un choc.

L'arrivée de DuckDB dans l'arsenal de SAS© Viya n'est pas qu'une simple mise à jour : c'est un changement de paradigme. Pour comprendre pourquoi tout le monde en parle, il faut regarder ce qui se passe réellement "sous le capot" de votre session de calcul.

Arrêtez d'importer vos données ! Comment DuckDB dans SAS Viya va faire exploser vos performances - L'écosystème SAS Viya réinventé : Quand l'orchestration distribuée rencontre la vélocité
L'écosystème SAS Viya réinventé : Quand l'orchestration distribuée rencontre la vélocité

🤫 Le secret bien gardé de son architecture (et spoiler : ce n'est pas dans CAS !)

Commençons par une révélation qui va faire sourire notre communauté We Are CAS : DuckDB ne s'exécute pas dans le moteur CAS, mais directement à l'intérieur de votre session SAS© Compute Server !

Qu'est-ce que ça change pour vous ? Absolument tout. Oubliez les architectures client/serveur complexes, les déploiements de serveurs externes et les latences réseau interminables. DuckDB est "in-process". Il s'invite silencieusement dans votre session SAS©, s'approprie vos ressources locales (CPU, RAM) et exécute vos requêtes SQL à la vitesse de l'éclair. C'est comme greffer un moteur de Formule 1 directement sur votre environnement de calcul habituel !


Contrairement aux bases de données traditionnelles (Oracle, SQL Server, Snowflake) qui nécessitent un serveur distant et des allers-retours réseau coûteux, DuckDB s'exécute directement à l'intérieur de votre session SAS© Compute Server.

  • Pas de serveur à gérer : DuckDB est "embarqué". Il démarre et s'arrête en même temps que votre session SAS©.

  • Zéro latence : Comme le moteur de calcul et les données partagent la même mémoire vive (RAM) et le même processeur (CPU), les échanges sont quasi instantanés.

Arrêtez d'importer vos données ! Comment DuckDB dans SAS Viya va faire exploser vos performances -

4 raisons pour lesquelles DuckDB va révolutionner votre code SAS

Vous vous demandez si le jeu en vaut la chandelle ? Voici pourquoi les experts de la data ne jurent plus que par ce combo :

1. La fin des imports de données (Le "Zéro Copie")

Vous avez des pétaoctets de données stockées au format Parquet, Delta Lake, Apache Iceberg, ou même de simples CSV/JSON ? Plus besoin d'écrire des étapes DATA ou des PROC IMPORT à n'en plus finir. DuckDB interroge directement ces formats ouverts. Vous amenez enfin la puissance de calcul sur la donnée brute, sans jamais la déplacer.

Arrêtez d'importer vos données ! Comment DuckDB dans SAS Viya va faire exploser vos performances -

2. Des performances SQL hallucinantes en mémoire

Grâce à son moteur analytique vectorisé, DuckDB dévore les données avec une fluidité déconcertante. Les temps de traitement pour vos agrégations et vos jointures complexes vont fondre comme neige au soleil.

Arrêtez d'importer vos données ! Comment DuckDB dans SAS Viya va faire exploser vos performances -

3. Zéro installation (Le rêve des Data Engineers)

Vous redoutez de devoir demander des accès ou de configurer une nouvelle base de données avec votre équipe IT ? Bonne nouvelle : il n'y a aucun serveur à déployer. Tout est déjà là, intégré et prêt à être utilisé par n'importe quel utilisateur SAS© Viya.

4. Un simple "LIBNAME" suffit pour débloquer sa puissance

Pas besoin d'apprendre un nouveau langage ! SAS© a rendu l'accès à DuckDB incroyablement intuitif grâce à son moteur LIBNAME. Vous codez avec vos concepts SAS© familiers tout en libérant la puissance monstrueuse du SQL de DuckDB en arrière-plan.

⚠️ Le seul piège à éviter absolument...

Attention, avec un grand pouvoir viennent de grandes responsabilités. Puisque DuckDB s'exécute in-process, il puise directement dans les ressources (RAM et CPU) de votre session Compute Server.

L'erreur de débutant ? Lancer une requête SQL titanesque sur un serveur sous-dimensionné. Assurez-vous d'avoir alloué suffisamment de mémoire à votre environnement SAS© avant de laisser DuckDB engloutir vos tables !

Arrêtez d'importer vos données ! Comment DuckDB dans SAS Viya va faire exploser vos performances -

Le moteur LIBNAME : La simplicité au service de la performance

L'un des plus grands atouts de cette intégration est sa transparence. Grâce au moteur LIBNAME DuckDB, vous n'avez pas besoin de réapprendre à coder. Vous déclarez votre bibliothèque, et soudain, vos fichiers Parquet ou JSON deviennent aussi faciles à manipuler qu'un dataset SAS© classique (.sas©7bdat).

Un pont vers l'écosystème

Arrêtez d'importer vos données ! Comment DuckDB dans SAS Viya va faire exploser vos performances - DuckDB & SAS Compute Server : L'alliance de la performance et de la simplicité. > Une intégration transparente sans latence réseau, conçue pour analyser vos données modernes (Parquet, JSON, Delta) directement là où elles se trouvent, tout en s'appuyant sur un moteur vectorisé ultra-rapide.
DuckDB & SAS Compute Server : L'alliance de la performance et de la simplicité. > Une intégration transparente sans latence réseau, conçue pour analyser vos données modernes (Parquet, JSON, Delta) directement là où elles se trouvent, tout en s'appuyant sur un moteur vectorisé ultra-rapide.

Le véritable "super-pouvoir" de DuckDB dans Viya réside dans sa capacité à lire nativement les formats de stockage modernes sans aucune conversion :

  • Parquet & Avro : Les standards du Big Data.

  • Delta Lake & Iceberg : Pour transformer votre stockage cloud en véritable Data Lakehouse.

  • JSON & CSV : Pour une agilité maximale sur les données brutes.

DuckDB dans SAS Viya, c'est l'agilité du monde Open Source combinée à la robustesse et à la gouvernance de la plateforme SAS. C'est l'outil ultime pour les Data Engineers qui veulent passer moins de temps à déplacer des données et plus de temps à les analyser.

Ce qu'il faut retenir sur l'intégration DuckDB dans SAS Viya :

  • ⚡ Exécution "In-Process" : DuckDB n'est pas un serveur externe. Il s'exécute directement à l'intérieur de votre session SAS© Compute Server. Résultat : zéro latence réseau et une réactivité instantanée.

  • 📂 Lecture directe des formats modernes : Plus besoin d'importer ! Vous pouvez requêter directement des fichiers Parquet, JSON, Delta Lake et Apache Iceberg comme s'il s'agissait de tables SAS©.

  • 🔗 Intégration transparente : L'accès se fait via le moteur LIBNAME DuckDB. Vous utilisez vos procédures SAS© habituelles tout en profitant de la puissance SQL de DuckDB.

  • 🚀 Performance analytique : Grâce à son moteur vectorisé, DuckDB est optimisé pour les agrégations et les calculs complexes sur de gros volumes de données en mémoire.

  • 🛠️ Architecture ultra-légère : Aucune installation complexe ni maintenance de base de données n'est requise. C'est une solution "zero-deploy" qui étend les capacités de votre environnement SAS© existant.

  • 💡 Stratégie "Data-First" : Vous apportez le calcul à la donnée (dans votre Data Lake) plutôt que de déplacer la donnée vers SAS©, ce qui accélère considérablement vos pipelines de Data Engineering.

  • ⚠️ Partage des ressources : Attention, DuckDB utilise le CPU et la RAM de votre session SAS©. Un bon dimensionnement de votre serveur Compute est donc la clé du succès.

  • Puisque DuckDB est un "invité" dans votre session SAS©, il partage vos ressources. Si vous lancez une requête SQL extrêmement gourmande, DuckDB consommera la RAM allouée à votre session Compute. Il est donc essentiel de bien dimensionner vos environnements pour profiter pleinement de cette puissance sans saturer vos serveurs.