Data Warehouse Immobilier
Pipeline de données complet pour l'analyse du marché immobilier français. Ingestion, transformation et interprétation des données avec une architecture moderne et performante.
Contributeurs
Boris TAKOU KENNE
Compétences
Python
DuckDB
Data Engineering
SQL
ETL
Publié
10 Décembre 2025
Liens importants
GitHubArchitecture du projet
Zone 1 : Raw Data (L'Ingestion)
Récupération des fichiers CSV bruts (dvf_stat_mensuelle, dvf_stat_geographique_globale). C'est l'entrée du "Data Lake".
Zone 2 : Staging & Curated (La Transformation)
Le point technique : Nettoyage des données (script_clean_staging) et d'agrégation (script_curated_BI).
Le résultat : Des fichiers prêts pour l'analyse comme france_mensuel ou des classements par prix et volume (top_dep_prix, top_dep_volume).
Zone 3 : Data Warehouse & Analytics
L'outil : Chargement des données nettoyées dans une base de données (dvf_market.db) via un script dédié.
La finalité : C'est ici que les requêtes SQL analytiques (script_bi_queries) entrent en jeu pour générer des insights.
Étapes du projet
1
Ingestion des données
TerminéScraping et extraction des données immobilières depuis plusieurs sources publiques.
2
Transformation & modélisation
TerminéNettoyage des données et modélisation dimensionnelle avec DuckDB.
3
Pipeline ETL
TerminéMise en place d'un pipeline ETL reproductible.
4
Interpretation
TerminéRequêtes SQL analytiques