Los datos se relacionan con campañas de marketing directo (llamadas telefónicas) de una entidad bancaria portuguesa. El objetivo de la clasificación es predecir si el cliente suscribirá un depósito a plazo (variable y). El trabajo se divide en tres componentes principales:
- Formulación de preguntas de investigación.
- Creación de hipótesis basadas en un problema específico.
- Análisis inicial del conjunto de datos seleccionado.
- Limpieza de datos.
- Transformación de variables.
- Reducción de datos cuando sea necesario.
- Discretización de datos según corresponda.
- Implementación de modelo de regresión lineal o logística
- Selección y cálculo de métricas de evaluación
- Análisis del rendimiento del modelo
Contiene datos sobre campañas de marketing directo (llamadas telefónicas) de una entidad bancaria portuguesa.
https://archive.ics.uci.edu/dataset/222/bank+marketing
A. Realizar un análisis exploratorio al conjunto de datos entregado, para ello debe crear diferentes preguntas e hipótesis a resolver en los datos partiendo de un problema que cada grupo debe plantear.
B. Después de realizar el análisis exploratorio, debe hacer el preprocesamiento de los datos según como considere: limpieza, transformación, reducción de datos o discretización de los datos.
C. Debe realizar un entrenamiento del modelo de machine learning.
· K-Means-Clustering.
· DBSCAN (Density-Based Spatial Clustering of Applications with Noise).
· Hierarchical Clustering.
· Gaussian Mixture Model (GMM).
· Principal Component Analysis (PCA).
| Ítem | Puntos |
|---|---|
| Análisis exploratorio de los datos y uso de algoritmos de cluster | 20 pts |
| Efectividad del modelo (Mínimo 70%) | 10 pts |
| Entrenamiento | 10 pts |
| Justificación | 10 pts |
| Total | 50 pts |
| User: | David Gutierrez Chaves |
|---|---|
| Code: | 506222728 |
| Subject: | Big Data Electiva-I |
| Institution: | Fundación Universitaria Konrad Lorenz |
| Institutional email | [email protected] |
https://github.com/dg2c4
