- Estudiantes sin conocimientos previos de programación o análisis de datos
- Profesionales que desean incorporar análisis de datos en su trabajo
- Personas interesadas en ciencia de datos desde los fundamentos
- Dominar las herramientas fundamentales para análisis de datos tabulares
- Desarrollar competencias en Python, R y SQL para manipulación de datos
- Comprender y aplicar conceptos estadísticos básicos
- Crear y evaluar modelos predictivos
- LibreOffice / MS Excel
- Visual Studio Code
- R Studio
- DBeaver
- Base de Datos: DuckDB, PostgreSQL, MySQL
- Otros: uv, git, R, Python 3.12+, Docker, ...
- Filas, columnas, celdas
- Tipos de datos: numéricos, categóricos, fechas, texto
- Ejercicio: Identificar tipos de datos en datasets reales
- Recolección → Limpieza → Exploración → Modelado → Comunicación
- Herramientas para cada etapa
- Ejercicio: Mapear herramientas a etapas del proceso
- ¿Por qué bases de datos vs. archivos?
- Modelo relacional: tablas, filas, columnas
- Claves primarias y foráneas
- Ejercicio: Diseñar esquema para tienda online
- SELECT básico: proyección y filtrado
- WHERE, ORDER BY, LIMIT
- Dataset: Base de datos de empleados (pequeña)
- Ejercicios progresivos: Queries cada vez más complejas
- GROUP BY y HAVING
- Funciones de agregación: COUNT, SUM, AVG, MAX, MIN
- Ejercicios: Análisis de ventas por región, tiempo, producto
- INNER, LEFT, RIGHT, FULL OUTER JOINs
- Cuándo usar cada tipo
- Dataset: Sistema multi-tabla (usuarios, pedidos, productos)
- Ejercicios progresivos: Queries con múltiples tablas
- Subconsultas en WHERE y SELECT
- Common Table Expressions (WITH)
- Ejercicios: Análisis complejos multi-nivel
- Series y DataFrames desde cero
- Lectura de archivos CSV, Excel, JSON
- Primeras exploraciones:
.info(),.describe(),.head() - Dataset: Ventas de una tienda online (1000-5000 registros)
- Ejercicios:
- Cargar datos
- Explorar estructura
- Identificar problemas
- Filosofía tidy data
- Funciones básicas:
select(),filter(),mutate(),summarise() - Mismo dataset que en Python
- Ejercicios graduales: Mismas tareas que con pandas
- Datos faltantes: tipos y patrones
- Duplicados: identificación y manejo
- Outliers: detección visual y estadística
- Inconsistencias: formatos, codificación
- Dataset "sucio": Datos reales con múltiples problemas
- Ejercicio: Crear reporte de calidad de datos
- Manejo de valores faltantes con pandas
- Detección y remoción de duplicados
- Transformación de tipos de datos
- Normalización de texto
- Ejercicios progresivos: Limpiar el dataset "sucio"
- Funciones de tidyverse para limpieza
- Manejo de NA values
- Funciones de stringr para texto
- Ejercicios progresivos: Mismo dataset, técnicas de R
- Medidas de tendencia central: media, mediana, moda
- Medidas de dispersión: varianza, desviación estándar, rango
- Distribuciones básicas
- Correlación vs. causalidad
- Ejercicios: Calcular estadísticas manualmente y con código
- Métodos de pandas para estadística
- scipy.stats básico
- Ejercicio: Análisis estadístico de dataset de ventas
- Funciones base de R
- Paquetes summary y psych
- Ejercicio: Mismo análisis estadístico en R
- Supervisado vs. no supervisado
- Regresión vs. clasificación
- Overfitting y underfitting
- Train/validation/test splits
- Ejercicio conceptual: Identificar tipos de problemas
- Feature engineering básico
- Encoding de variables categóricas
- Normalización y estandarización
- Dataset: Predicción de precios de casas
- Ejercicio: Preparar datos para modelos
- Intervalos de confianza
- Pruebas de hipótesis básicas
- p-values y significancia
- Ejercicio: Análisis A/B simple
- scikit-learn básico
- LinearRegression, métricas
- Interpretación de coeficientes
- Ejercicio: Predecir precios usando características numéricas
- lm() function
- summary() y diagnostic plots
- Ejercicio: Mismo problema en R
- MSE, RMSE, MAE, R²
- Validación cruzada
- Ejercicio: Comparar modelos Python vs R
- LogisticRegression, DecisionTreeClassifier
- Métricas: accuracy, precision, recall, F1
- Matriz de confusión
- Dataset: Clasificación de clientes (churn prediction)
- Ejercicio: Modelo completo de clasificación
- glm() para regresión logística
- Paquetes caret y randomForest
- Ejercicio: Mismo problema de clasificación
- Feature importance
- Interpretación de coeficientes
- Ejercicio: Explicar modelo a stakeholder no técnico
- ¿Qué es un dashboard efectivo?
- KPIs vs. métricas
- Audiencia y objetivos
- Ejercicio: Definir KPIs para diferentes roles
- Principios de diseño para dashboards
- Jerarquía visual
- Colores y tipografía
- Heramientas de visualización: Looker
- Ejercicio: Rediseñar dashboard existente
- Streamlit básico
- Widgets y interactividad
- Deployment básico
- Ejercicio: Dashboard interactivo para ventas
- Shiny básico en R
- UI y server logic
- Ejercicio: Convertir dashboard de Streamlit a Shiny
- Selección de dataset y problemática
- Definición de objetivos y métricas de éxito
- Planificación de timeline
- Entregable: Propuesta de proyecto
- Implementación siguiendo metodología aprendida
- Uso de herramientas múltiples (Python, R, SQL)
- Documentación en notebooks
- Entregable: Notebooks documentados y código
- Preparación de presentación ejecutiva
- Dashboard final
- Documentación técnica
- Entregable: Presentación + dashboard + documentación