Databricks : configurer le répertoire par défaut dataware

Par défaut lorsque l’on crée une table sans spécifier le paramètre location dans Databricks en SparkSQL, les fichiers de données sont stockée dans le DBFS interne du workspace Databricks configuré dans le metastore. On peut retrouver les fichiers de données dans le répertoire dbfs:/user/hive/warehouse/. L’intérêt du répertoire par défaut géré par le metastore, c’est qu’il […]

Read more Databricks : configurer le répertoire par défaut dataware

Databricks (SPARK) : réparer toutes les tables partitionnées d’un seul coup

Si vous avez des tables partitionnées dans votre metastore HIVE-Spark et que vos données sont écrites sur le stockage dans des sous-répertoires partitionnées (/<pathToTable>/<partitionName>=<value>/) par un autre traitement que Spark ou Hive (Azure Stream Analytics, Event Hub, Azure Function ….), par exemple : /logs/day=2019-08-10/ /logs/day=2019-08-11/ … Les tables partitionnées ne verront pas les données des […]

Read more Databricks (SPARK) : réparer toutes les tables partitionnées d’un seul coup