Trabajo Práctico para la materia Organización de Datos (95.58)
| Nombre | GitHub |
|---|---|
| Sebastián Brizuela | SebaB29 |
| Lucía Agha Zadeh Dehdeh | Lucia-azd |
| Juan Sebastián Del Río | S2JuanS2 |
El objetivo de este trabajo es predecir si una crítica cinematográfica es positiva o negativa utilizando diferentes modelos de clasificación.
Se trabajó con un DataFrame de 50,000 filas y 3 columnas que incluye el ID, las críticas (en español) y el sentimiento asociado.
- Se eliminaron críticas en inglés, quedando 48,183 críticas en español.
- Se limpiaron caracteres especiales y se transformaron las etiquetas de sentimiento a 1 (positivo) y 0 (negativo).
- Se utilizó TfidfVectorizer para ponderar la frecuencia de palabras, eliminando stopwords en español.
- Bayes Naive
- Random Forest
- XGBoost
- Redes Neuronales
- Stacking
| Modelo | F1 | Precisión | Recall | Accuracy | Kaggle |
|---|---|---|---|---|---|
| Bayes Naive (Mejor) | 0.86911 | 0.85916 | 0.87930 | 0.86748 | 0.75033 |
| Random Forest | 0.85331 | 0.83575 | 0.87163 | 0.85005 | 0.72281 |
| XGBoost | 0.86025 | 0.85134 | 0.86934 | 0.85866 | 0.70478 |
| Red Neuronal | 0.87670 | 0.87670 | 0.87670 | 0.87670 | 0.74471 |
| Stacking | 0.86764 | 0.84533 | 0.89116 | 0.86293 | 0.74626 |
- El análisis exploratorio fue limitado, ya que solo había una característica a analizar (críticas).
- Las tareas de preprocesamiento resultaron útiles para agilizar y mejorar las predicciones; la eliminación de críticas en inglés tuvo un impacto significativo.
- El mejor modelo resultó ser Bayes Naive, el más sencillo y rápido de entrenar, además de ser el que mejor desempeño tuvo en Kaggle.
Este proyecto está bajo la Licencia MIT. Consulta el archivo LICENSE para más información.