Data Warehouse Immobilier

Data Warehouse Immobilier

Pipeline de données complet pour l'analyse du marché immobilier français. Ingestion, transformation et interprétation des données avec une architecture moderne et performante.

Contributeurs

Boris TAKOU KENNE

Compétences

Python

DuckDB

Data Engineering

SQL

ETL

Publié

10 Décembre 2025

Liens importants

GitHub

Architecture du projet

Csv files dvf_stat_mensuelle dvf_stat_geo_globale 📄 📄 script_clean_staging csv files dvf_geo_staging dvf_mensuel_staging script_curated_BI csv files france_mensuel top_dep_prix top_dep_volume 📊 📈 🏆 script_warehouse_db dvf_market.db 🗄️ SQL ANALYTICS script_bi_queries

Zone 1 : Raw Data (L'Ingestion)

Récupération des fichiers CSV bruts (dvf_stat_mensuelle, dvf_stat_geographique_globale). C'est l'entrée du "Data Lake".

Zone 2 : Staging & Curated (La Transformation)

Le point technique : Nettoyage des données (script_clean_staging) et d'agrégation (script_curated_BI). Le résultat : Des fichiers prêts pour l'analyse comme france_mensuel ou des classements par prix et volume (top_dep_prix, top_dep_volume).

Zone 3 : Data Warehouse & Analytics

L'outil : Chargement des données nettoyées dans une base de données (dvf_market.db) via un script dédié. La finalité : C'est ici que les requêtes SQL analytiques (script_bi_queries) entrent en jeu pour générer des insights.

Étapes du projet

1

Ingestion des données

Terminé

Scraping et extraction des données immobilières depuis plusieurs sources publiques.

2

Transformation & modélisation

Terminé

Nettoyage des données et modélisation dimensionnelle avec DuckDB.

3

Pipeline ETL

Terminé

Mise en place d'un pipeline ETL reproductible.

4

Interpretation

Terminé

Requêtes SQL analytiques