Data Engineering 2026 TerminéCompleted

NYC Taxi Data Pipeline NYC Taxi Data Pipeline

Pipeline de données end-to-end traitant ~24 millions de trajets de taxis NYC avec architecture Medallion sur Snowflake et ingestion automatique via AWS. End-to-end data pipeline processing ~24 million NYC taxi trips using Medallion architecture on Snowflake with automatic AWS ingestion.

Février 2026February 2026
Projet personnelPersonal project
NYC Taxi Data Pipeline Architecture

TL;DR

Pipeline de données complet transformant des données brutes de trajets de taxi en métriques analytiques exploitables. ~24M trajets traités via architecture Medallion (Bronze → Silver → Gold) sur Snowflake, avec ingestion automatique AWS S3 + SQS + Snowpipe en moins d'1 minute. Taux de validité : 92%+ Yellow/Green, 99%+ FHV. Complete data pipeline transforming raw taxi trip data into actionable analytics. ~24M trips processed via Medallion architecture (Bronze → Silver → Gold) on Snowflake, with automatic AWS S3 + SQS + Snowpipe ingestion under 1 minute. Validity rate: 92%+ Yellow/Green, 99%+ FHV.

~24M
Trajets traitésTrips processed
3
Couches MedallionMedallion layers
<1 min
Latence ingestionIngestion latency
92%+
Taux de validitéValidity rate
3
Types de véhiculesVehicle types
5
Checks monitoringMonitoring checks

L'Histoire du Projet

ObjectifObjective

Construire un pipeline de données complet qui transforme des données brutes de trajets de taxi en métriques analytiques exploitables, tout en appliquant les bonnes pratiques de data engineering : qualité des données, traçabilité, monitoring et documentation.Build a complete data pipeline that transforms raw taxi trip data into actionable analytics, while applying data engineering best practices: data quality, traceability, monitoring, and documentation.

SolutionSolution

Architecture Medallion (Bronze → Silver → Gold) sur Snowflake avec ingestion automatique via AWS S3, SQS et Snowpipe. Transformations SQL avec règles de qualité strictes et monitoring automatisé.Medallion architecture (Bronze → Silver → Gold) on Snowflake with automatic ingestion via AWS S3, SQS, and Snowpipe. SQL transformations with strict quality rules and automated monitoring.

RésultatResult

~24M trajets traités avec 92%+ de taux de validité. Métriques Gold agrégées par jour : revenus, passagers, flotte active. Pipeline reproductible et documenté.~24M trips processed with 92%+ validity rate. Daily Gold metrics: revenue, passengers, active fleet. Reproducible and documented pipeline.

Architecture & Patterns

Medallion Architecture

Parquet Files (TLC) AWS S3 Bucket SQS + Snowpipe BRONZE (Raw) SILVER (Clean) GOLD (Aggregated)

3 Types de Véhicules3 Vehicle Types

Yellow Taxi Taxis traditionnels, tout NYCTraditional taxis, all NYC
Green Taxi Taxis de borough, hors ManhattanBorough taxis, outside Manhattan
FHV Uber, Lyft, Via...Uber, Lyft, Via...

Règles de QualitéQuality Rules

  • Durée : 1 min — 24hDuration: 1 min — 24h
  • Vitesse max : 65 mphMax speed: 65 mph
  • Tarif > 0$ (Yellow/Green)Fare > $0 (Yellow/Green)
  • Distance > 0 milesDistance > 0 miles
  • Timestamps validesValid timestamps
  • Détection d'anomaliesAnomaly detection

Stack Technique

Cloud (AWS)

AWS S3
AWS SQS
S3 Event Notifications

Data Warehouse

Snowflake
Snowpipe
SnowSQL CLI

Data & Patterns

SQL
Medallion Architecture
Parquet

Qualité des Données

Transformations Silver avec 4 CTEs séquentiels : converted → with_calculations → with_flags → finalSilver transformations with 4 sequential CTEs: converted → with_calculations → with_flags → final
18.1M

Yellow Trips

92,80% validité92.80% validity

146K

Green Trips

92,62% validité92.62% validity

5.6M

FHV Trips

99,52% validité99.52% validity

12 Scripts SQLSQL scripts
9 Tables crééesTables created
3 Snowpipes
5 Checks monitoringMonitoring checks

Monitoring & AlertesMonitoring & Alerts

FraîcheurFreshness

Alerte si > 2 jours sans nouvelles donnéesAlert if > 2 days without new data

VolumeVolume

Détection des tables videsEmpty table detection

QualitéQuality

Alerte si < 85% trajets validesAlert if < 85% valid trips

DériveDrift

> 50% variation tarif jour/jour> 50% fare variation day/day

CohérenceConsistency

> 20% perte Bronze→Silver> 20% loss Bronze→Silver

Exemple Métriques GoldGold Metrics Example

Données du 31 mars 2025Data from March 31, 2025
105,753
Yellow Trips
$3,098,422 revenusrevenue
1,566
Green Trips
$36,443 revenusrevenue
70,911
FHV Trips
Uber, Lyft, Via...Uber, Lyft, Via...
$20.00
Tarif moyen YellowAvg Yellow fare

Discutons de votre projet

Vous avez un projet similaire ? Je serais ravi d'en discuter.