Databricks : Il se connecte aux API en mode Azure AD sans PAT tout le monde hallucine (PRANK)

De base pour se connecter à un workspace Databricks et utiliser les API, il faut utiliser un token appelé aussi PAT que l’on va passer dans le header des appels REST (cf. mon article sur le CI/CD et Databricks dans lequel j’utilise cette méthode : ici ) Voir ici pour s’authentifier avec un PAT de façon […]

Read more Databricks : Il se connecte aux API en mode Azure AD sans PAT tout le monde hallucine (PRANK)

Databricks : TOP 3 des façons de créer un environnement de développement ou de test !

Si vous êtes intéressés par Databricks et que vous souhaitez vous y mettre, il existe aujourd’hui plusieurs façons de se créer un environnement de test et de développement : Utiliser Azure Databricks directement Utiliser Databricks Community Edition  Installer un environnement local sur votre ordinateur Bien sur toutes ces solutions ont chacune leurs avantages et inconvénients, […]

Read more Databricks : TOP 3 des façons de créer un environnement de développement ou de test !

Databricks : CI/CD avec Azure DevOps et 3 méthodes de déploiement de notebooks en masse, la 3eme va vous étonner !

Avant de parler de méthode de déploiement, on va parler un peu de Databricks et de CI/CD. Il n’y a pas toujours besoin de mettre en place du CI/CD, surtout lorsqu’on a des usages “self-service” et que l’on travaille directement production. Mais par exemple lorsqu’on a besoin d’automatiser des traitements (ça doit tourner tous les […]

Read more Databricks : CI/CD avec Azure DevOps et 3 méthodes de déploiement de notebooks en masse, la 3eme va vous étonner !

Databricks : configurer le répertoire par défaut dataware

Par défaut lorsque l’on crée une table sans spécifier le paramètre location dans Databricks en SparkSQL, les fichiers de données sont stockée dans le DBFS interne du workspace Databricks configuré dans le metastore. On peut retrouver les fichiers de données dans le répertoire dbfs:/user/hive/warehouse/. L’intérêt du répertoire par défaut géré par le metastore, c’est qu’il […]

Read more Databricks : configurer le répertoire par défaut dataware

Databricks (SPARK) : réparer toutes les tables partitionnées d’un seul coup

Si vous avez des tables partitionnées dans votre metastore HIVE-Spark et que vos données sont écrites sur le stockage dans des sous-répertoires partitionnées (/<pathToTable>/<partitionName>=<value>/) par un autre traitement que Spark ou Hive (Azure Stream Analytics, Event Hub, Azure Function ….), par exemple : /logs/day=2019-08-10/ /logs/day=2019-08-11/ … Les tables partitionnées ne verront pas les données des […]

Read more Databricks (SPARK) : réparer toutes les tables partitionnées d’un seul coup