Curso Práctico de Análisis de Datos Tabulares

INFORMACIÓN GENERAL DEL CURSO

Público Objetivo

Estudiantes sin conocimientos previos de programación o análisis de datos
Profesionales que desean incorporar análisis de datos en su trabajo
Personas interesadas en ciencia de datos desde los fundamentos

Objetivos Generales

Dominar las herramientas fundamentales para análisis de datos tabulares
Desarrollar competencias en Python, R y SQL para manipulación de datos
Comprender y aplicar conceptos estadísticos básicos
Crear y evaluar modelos predictivos

Herramientas

LibreOffice / MS Excel
Visual Studio Code
R Studio
DBeaver
Base de Datos: DuckDB, PostgreSQL, MySQL
Otros: uv, git, R, Python 3.12+, Docker, ...

MÓDULO 1: INTRODUCCIÓN AL CURSO

1.1 Fundamentos Conceptuales

¿Qué entendemos por datos tabulares?

Filas, columnas, celdas
Tipos de datos: numéricos, categóricos, fechas, texto
Ejercicio: Identificar tipos de datos en datasets reales

El proceso de análisis de datos

Recolección → Limpieza → Exploración → Modelado → Comunicación
Herramientas para cada etapa
Ejercicio: Mapear herramientas a etapas del proceso

MÓDULO 2: BASES DE DATOS RELACIONALES

2.1 Fundamentos de Bases de Datos Relacionales

Sesión 2.1.1: Conceptos de Bases de Datos Relacionales

¿Por qué bases de datos vs. archivos?
Modelo relacional: tablas, filas, columnas
Claves primarias y foráneas
Ejercicio: Diseñar esquema para tienda online

Sesión 2.1.2: Introducción a SQL

SELECT básico: proyección y filtrado
WHERE, ORDER BY, LIMIT
Dataset: Base de datos de empleados (pequeña)
Ejercicios progresivos: Queries cada vez más complejas

2.2 SQL Intermedio

Sesión 2.2.1: Agregaciones y Agrupaciones

GROUP BY y HAVING
Funciones de agregación: COUNT, SUM, AVG, MAX, MIN
Ejercicios: Análisis de ventas por región, tiempo, producto

Sesión 2.2.2: JOINs

INNER, LEFT, RIGHT, FULL OUTER JOINs
Cuándo usar cada tipo
Dataset: Sistema multi-tabla (usuarios, pedidos, productos)
Ejercicios progresivos: Queries con múltiples tablas

Sesión 2.2.3: Subconsultas y CTEs

Subconsultas en WHERE y SELECT
Common Table Expressions (WITH)
Ejercicios: Análisis complejos multi-nivel

MÓDULO 3: ANÁLISIS EXPLORATORIO DE DATOS

3.1 Carga y Exploración Inicial de Datos

Sesión 3.1.1: Pandas Básico

Series y DataFrames desde cero
Lectura de archivos CSV, Excel, JSON
Primeras exploraciones: .info(), .describe(), .head()
Dataset: Ventas de una tienda online (1000-5000 registros)
Ejercicios:
- Cargar datos
- Explorar estructura
- Identificar problemas

Sesión 3.1.2: dplyr y tidyr en R

Filosofía tidy data
Funciones básicas: select(), filter(), mutate(), summarise()
Mismo dataset que en Python
Ejercicios graduales: Mismas tareas que con pandas

3.2 Limpieza y Transformación de Datos

Sesión 3.2.1: Identificación de Problemas en Datos

Datos faltantes: tipos y patrones
Duplicados: identificación y manejo
Outliers: detección visual y estadística
Inconsistencias: formatos, codificación
Dataset "sucio": Datos reales con múltiples problemas
Ejercicio: Crear reporte de calidad de datos

Sesión 3.2.2: Técnicas de Limpieza en Python

Manejo de valores faltantes con pandas
Detección y remoción de duplicados
Transformación de tipos de datos
Normalización de texto
Ejercicios progresivos: Limpiar el dataset "sucio"

Sesión 3.2.3: Técnicas de Limpieza en R

Funciones de tidyverse para limpieza
Manejo de NA values
Funciones de stringr para texto
Ejercicios progresivos: Mismo dataset, técnicas de R

3.3 Estadística Descriptiva Básica

Sesión 3.3.1: Conceptos Estadísticos Fundamentales

Medidas de tendencia central: media, mediana, moda
Medidas de dispersión: varianza, desviación estándar, rango
Distribuciones básicas
Correlación vs. causalidad
Ejercicios: Calcular estadísticas manualmente y con código

Sesión 3.3.2: Estadística Descriptiva en Python

Métodos de pandas para estadística
scipy.stats básico
Ejercicio: Análisis estadístico de dataset de ventas

Sesión 3.3.3: Estadística Descriptiva en R

Funciones base de R
Paquetes summary y psych
Ejercicio: Mismo análisis estadístico en R

MÓDULO 4: ENTRENAMIENTO Y EVALUACIÓN DE MODELOS

4.1 Fundamentos de Machine Learning

Sesión 4.1.1: Conceptos de Machine Learning

Supervisado vs. no supervisado
Regresión vs. clasificación
Overfitting y underfitting
Train/validation/test splits
Ejercicio conceptual: Identificar tipos de problemas

Sesión 4.1.2: Preparación de Datos para ML

Feature engineering básico
Encoding de variables categóricas
Normalización y estandarización
Dataset: Predicción de precios de casas
Ejercicio: Preparar datos para modelos

Sesión 4.1.3: Estadística Inferencial Básica

Intervalos de confianza
Pruebas de hipótesis básicas
p-values y significancia
Ejercicio: Análisis A/B simple

4.2 Modelos de Regresión

Sesión 4.2.1: Regresión Lineal en Python

scikit-learn básico
LinearRegression, métricas
Interpretación de coeficientes
Ejercicio: Predecir precios usando características numéricas

Sesión 4.2.2: Regresión Lineal en R

lm() function
summary() y diagnostic plots
Ejercicio: Mismo problema en R

Sesión 4.2.3: Evaluación de Modelos

MSE, RMSE, MAE, R²
Validación cruzada
Ejercicio: Comparar modelos Python vs R

4.3 Modelos de Clasificación

Sesión 4.3.1: Clasificación en Python

LogisticRegression, DecisionTreeClassifier
Métricas: accuracy, precision, recall, F1
Matriz de confusión
Dataset: Clasificación de clientes (churn prediction)
Ejercicio: Modelo completo de clasificación

Sesión 4.3.2: Clasificación en R

glm() para regresión logística
Paquetes caret y randomForest
Ejercicio: Mismo problema de clasificación

Sesión 4.3.3: Interpretación de Modelos

Feature importance
Interpretación de coeficientes
Ejercicio: Explicar modelo a stakeholder no técnico

MÓDULO 5: DISEÑO DE CUADROS DE MANDO

5.1 Fundamentos de Business Intelligence

Sesión 5.1.1: Conceptos de BI y KPIs

¿Qué es un dashboard efectivo?
KPIs vs. métricas
Audiencia y objetivos
Ejercicio: Definir KPIs para diferentes roles

Sesión 5.1.2: Diseño Visual y UX

Principios de diseño para dashboards
Jerarquía visual
Colores y tipografía
Heramientas de visualización: Looker
Ejercicio: Rediseñar dashboard existente

5.2 Programación de Dashboards

Sesión 5.2.1: Dashboards con Streamlit

Streamlit básico
Widgets y interactividad
Deployment básico
Ejercicio: Dashboard interactivo para ventas

Sesión 5.2.2: Dashboards con Shiny

Shiny básico en R
UI y server logic
Ejercicio: Convertir dashboard de Streamlit a Shiny

MÓDULO 6: PROYECTO FINAL

6.1 Definición y Planificación del Proyecto

Selección de dataset y problemática
Definición de objetivos y métricas de éxito
Planificación de timeline
Entregable: Propuesta de proyecto

6.2 Desarrollo del Proyecto

Implementación siguiendo metodología aprendida
Uso de herramientas múltiples (Python, R, SQL)
Documentación en notebooks
Entregable: Notebooks documentados y código

6.3 Presentación y Comunicación

Preparación de presentación ejecutiva
Dashboard final
Documentación técnica
Entregable: Presentación + dashboard + documentación

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
1.INTRO		1.INTRO
2.RDBMS		2.RDBMS
3.R y RStudio		3.R y RStudio
4.Python y VSCode		4.Python y VSCode
LICENSE		LICENSE
README.md		README.md

License

kreynaldo/AnalysisDatosTabulares

Folders and files

Latest commit

History

Repository files navigation

Curso Práctico de Análisis de Datos Tabulares

INFORMACIÓN GENERAL DEL CURSO

Público Objetivo

Objetivos Generales

Herramientas

MÓDULO 1: INTRODUCCIÓN AL CURSO

1.1 Fundamentos Conceptuales

¿Qué entendemos por datos tabulares?

El proceso de análisis de datos

MÓDULO 2: BASES DE DATOS RELACIONALES

2.1 Fundamentos de Bases de Datos Relacionales

Sesión 2.1.1: Conceptos de Bases de Datos Relacionales

Sesión 2.1.2: Introducción a SQL

2.2 SQL Intermedio

Sesión 2.2.1: Agregaciones y Agrupaciones

Sesión 2.2.2: JOINs

Sesión 2.2.3: Subconsultas y CTEs

MÓDULO 3: ANÁLISIS EXPLORATORIO DE DATOS

3.1 Carga y Exploración Inicial de Datos

Sesión 3.1.1: Pandas Básico

Sesión 3.1.2: dplyr y tidyr en R

3.2 Limpieza y Transformación de Datos

Sesión 3.2.1: Identificación de Problemas en Datos

Sesión 3.2.2: Técnicas de Limpieza en Python

Sesión 3.2.3: Técnicas de Limpieza en R

3.3 Estadística Descriptiva Básica

Sesión 3.3.1: Conceptos Estadísticos Fundamentales

Sesión 3.3.2: Estadística Descriptiva en Python

Sesión 3.3.3: Estadística Descriptiva en R

MÓDULO 4: ENTRENAMIENTO Y EVALUACIÓN DE MODELOS

4.1 Fundamentos de Machine Learning

Sesión 4.1.1: Conceptos de Machine Learning

Sesión 4.1.2: Preparación de Datos para ML

Sesión 4.1.3: Estadística Inferencial Básica

4.2 Modelos de Regresión

Sesión 4.2.1: Regresión Lineal en Python

Sesión 4.2.2: Regresión Lineal en R

Sesión 4.2.3: Evaluación de Modelos

4.3 Modelos de Clasificación

Sesión 4.3.1: Clasificación en Python

Sesión 4.3.2: Clasificación en R

Sesión 4.3.3: Interpretación de Modelos

MÓDULO 5: DISEÑO DE CUADROS DE MANDO

5.1 Fundamentos de Business Intelligence

Sesión 5.1.1: Conceptos de BI y KPIs

Sesión 5.1.2: Diseño Visual y UX

5.2 Programación de Dashboards

Sesión 5.2.1: Dashboards con Streamlit

Sesión 5.2.2: Dashboards con Shiny

MÓDULO 6: PROYECTO FINAL

6.1 Definición y Planificación del Proyecto

6.2 Desarrollo del Proyecto

6.3 Presentación y Comunicación

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages