Proyecto End-to-End de Ingeniería de Datos y Analytics simulando un entorno real de aplicaciones de transporte (tipo Uber/Lyft).
Este proyecto transforma datos crudos en insights de negocio mediante una arquitectura de 3 etapas:
- Pipeline ETL : Script de Python (
etl_db.py) que extrae datos crudos (CSV con ~1.2 Millones de filas), limpia formatos inconsistentes y carga la data optimizada en una Base de Datos SQLite. - Integración SQL: Extracción de datos para análisis mediante consultas SQL complejas (JOINs) entre tablas de
ViajesyClima. - Machine Learning: Implementación de un modelo Random Forest Regressor para predecir la dinámica de precios.
- Procesamiento: Se ingirieron 1.2M+ registros.
- Calidad: Tras el proceso de limpieza y cruce SQL, se consolidó un dataset final de ~600k viajes verificados.
- RMSE: $9.00 (Margen de error promedio).
- R² Score: 0.15 (Baseline).
- Análisis Técnico: La correlación baja indica que la
Distanciay elSurge Multiplierson los factores dominantes. La data delClima(unida por hora) añade complejidad/ruido, lo que sugiere la necesidad de datos climáticos más granulares (por minuto) para futuras iteraciones.
- Lenguajes: Python, SQL.
- Librerías: Pandas, Scikit-Learn, SQLite3, Matplotlib/Seaborn, Plotly.
- Herramientas: Jupyter Notebook, VS Code.
# 1. Clonar el repositorio
git clone https://github.com/TU_USUARIO/RideFare-ETL-Pipeline.git
# 2. Instalar dependencias
pip install pandas scikit-learn matplotlib seaborn plotly jupyter
# 3. Ejecutar el ETL (crea la base de datos)
python etl_db.py
# 4. Abrir el notebook de análisis
jupyter notebook RideFare_Analysis_Engineering.ipynbDesarrollado por Samir Caizapasto - Estudiante de Ingeniería en Computación ESPOL
