FADATA, Author at FADATA

Exécuter une procédure stockée Snowflake avec Azure Data Factory

Comme vous l’avez surement déjà remarqué, il n’existe pas d’activité “native” dans Azure Data Factory (ni dans les pipelines Synapse) pour exécuter une procédure stockée dans Snowflake. En effet, l’activité procédure stockée n’est compatible qu’avec les bases de données SQL Server, Azure SQL database et Synapse SQL Pool (cf. Transformer des données à l’aide de […]

Power BI : se connecter aux API en mode REST avec un Service Principal Azure AD

Dans cet article, nous allons voir comment se connecter aux API Power BI en mode REST en utilisant un service princial (SP). Pour rappel, nous avons déjà utilisé la méthode du SP avec Azure Data Factory dans un de mes précédents articles => ICI. L’idée maintenant c’est d’utiliser cette méthode avec n’importe quelles technologies et […]

Databricks : on stream des données dans Power BI en PUSH

Aujourd’hui nous allons voir comment pousser des données en temps réel dans un Dashbord Power BI avec Databricks grâce à la technologie structure streaming de Spark. Le but sera bien sûr de réaliser de magnifiques Dashboard avec des données qui se mettent à jour en temps réel et c’est vraiment la classe à Dallas ! […]

Azure Data Factory : Actualiser un modèle Azure Analysis Services et Power BI sans code grâce au MSI !!

Aujourd’hui, nous allons voir comment demander à un modèle Power BI déployé dans le service ou dans Azure Analysis Services (AAS) de se mettre à jour directement via Azure Data Factory (ADF). Dans les deux cas (Power BI ou AAS) nous allons utiliser le MSI (Managed Service Identity) de ADF qui va surtout permettre à […]

Databricks : Il se connecte aux API en mode Azure AD sans PAT tout le monde hallucine (PRANK)

De base pour se connecter à un workspace Databricks et utiliser les API, il faut utiliser un token appelé aussi PAT que l’on va passer dans le header des appels REST (cf. mon article sur le CI/CD et Databricks dans lequel j’utilise cette méthode : ici ) Voir ici pour s’authentifier avec un PAT de façon […]

Databricks : TOP 3 des façons de créer un environnement de développement ou de test !

Si vous êtes intéressés par Databricks et que vous souhaitez vous y mettre, il existe aujourd’hui plusieurs façons de se créer un environnement de test et de développement : Utiliser Azure Databricks directement Utiliser Databricks Community Edition Installer un environnement local sur votre ordinateur Bien sur toutes ces solutions ont chacune leurs avantages et inconvénients, […]

Azure Data Factory : Il essaie de récupérer un secret Azure Key Vault dans un Pipeline, ça tourne mal !

Azure Key Vault (AKV) est un produit Azure assez pratique pour stocker de façon sécurisée des secrets (entre autres) et Azure Data Factory (ADF) permet nativement d’y accéder. Ca s’utilise généralement dans la configuration de nos linked services ADF, cf. la doc officielle pour voir comment faire : https://docs.microsoft.com/en-us/azure/data-factory/store-credentials-in-key-vault On va donc pouvoir utiliser AKV […]

Jupyter Notebooks : #LIFEHACK exécuter du SQL sur des Dataframes Pandas directement dans une cellule magic

Aujourd’hui petit article un peu spécial, dans lequel je vous propose de vous montrer comment requêter des Dataframes Pandas en SQL ! Pour ce faire, il va falloir utiliser en plus de Pandas la librairie pandasql (https://pypi.org/project/pandasql/). Elle est plutôt simple à utiliser, par exemple : import pandas as pd import numpy as np from […]

Databricks : CI/CD avec Azure DevOps et 3 méthodes de déploiement de notebooks en masse, la 3eme va vous étonner !

Avant de parler de méthode de déploiement, on va parler un peu de Databricks et de CI/CD. Il n’y a pas toujours besoin de mettre en place du CI/CD, surtout lorsqu’on a des usages “self-service” et que l’on travaille directement production. Mais par exemple lorsqu’on a besoin d’automatiser des traitements (ça doit tourner tous les […]

Databricks : configurer le répertoire par défaut dataware

Par défaut lorsque l’on crée une table sans spécifier le paramètre location dans Databricks en SparkSQL, les fichiers de données sont stockée dans le DBFS interne du workspace Databricks configuré dans le metastore. On peut retrouver les fichiers de données dans le répertoire dbfs:/user/hive/warehouse/. L’intérêt du répertoire par défaut géré par le metastore, c’est qu’il […]

Older posts

FADATA

Auteur/autrice : FADATA