Pipeline de données end-to-end traitant ~24 millions de trajets de taxis NYC avec architecture Medallion sur Snowflake et ingestion automatique via AWS. End-to-end data pipeline processing ~24 million NYC taxi trips using Medallion architecture on Snowflake with automatic AWS ingestion.
Pipeline de données complet transformant des données brutes de trajets de taxi en métriques analytiques exploitables. ~24M trajets traités via architecture Medallion (Bronze → Silver → Gold) sur Snowflake, avec ingestion automatique AWS S3 + SQS + Snowpipe en moins d'1 minute. Taux de validité : 92%+ Yellow/Green, 99%+ FHV. Complete data pipeline transforming raw taxi trip data into actionable analytics. ~24M trips processed via Medallion architecture (Bronze → Silver → Gold) on Snowflake, with automatic AWS S3 + SQS + Snowpipe ingestion under 1 minute. Validity rate: 92%+ Yellow/Green, 99%+ FHV.
Construire un pipeline de données complet qui transforme des données brutes de trajets de taxi en métriques analytiques exploitables, tout en appliquant les bonnes pratiques de data engineering : qualité des données, traçabilité, monitoring et documentation.Build a complete data pipeline that transforms raw taxi trip data into actionable analytics, while applying data engineering best practices: data quality, traceability, monitoring, and documentation.
Architecture Medallion (Bronze → Silver → Gold) sur Snowflake avec ingestion automatique via AWS S3, SQS et Snowpipe. Transformations SQL avec règles de qualité strictes et monitoring automatisé.Medallion architecture (Bronze → Silver → Gold) on Snowflake with automatic ingestion via AWS S3, SQS, and Snowpipe. SQL transformations with strict quality rules and automated monitoring.
~24M trajets traités avec 92%+ de taux de validité. Métriques Gold agrégées par jour : revenus, passagers, flotte active. Pipeline reproductible et documenté.~24M trips processed with 92%+ validity rate. Daily Gold metrics: revenue, passengers, active fleet. Reproducible and documented pipeline.
92,80% validité92.80% validity
92,62% validité92.62% validity
99,52% validité99.52% validity
Alerte si > 2 jours sans nouvelles donnéesAlert if > 2 days without new data
Détection des tables videsEmpty table detection
Alerte si < 85% trajets validesAlert if < 85% valid trips
> 50% variation tarif jour/jour> 50% fare variation day/day
> 20% perte Bronze→Silver> 20% loss Bronze→Silver
Vous avez un projet similaire ? Je serais ravi d'en discuter.