Walmart Inc. est une multinationale américaine de la vente au détail qui exploite une chaîne d'hypermarchés, de grands magasins discount et d'épiceries aux États-Unis. Son siège social est situé à Bentonville, dans l'Arkansas. L'entreprise a été fondée par Sam Walton en 1962.
Le service marketing de Walmart vous a demandé de créer un modèle d'apprentissage automatique capable d'estimer les ventes hebdomadaires de ses magasins, avec la plus grande précision possible. Ce modèle leur permettrait de mieux comprendre l'influence des indicateurs économiques sur les ventes et pourrait servir à planifier leurs futures campagnes marketing.
Le projet peut être divisé en trois étapes :
Partie 1 : réaliser une EDA et tous les prétraitements nécessaires pour préparer les données au machine learning
Partie 2 : former un modèle de régression linéaire (baseline)
Partie 3 : éviter le surapprentissage en entraînant un modèle de régression régularisé
Pour ce projet, vous travaillerez avec un ensemble de données contenant des informations sur les ventes hebdomadaires de différents magasins Walmart, ainsi que d'autres variables telles que le taux de chômage ou le prix du carburant, qui pourraient être utiles pour prédire le volume des ventes. Cet ensemble de données est issu d'un concours Kaggle, mais nous avons apporté quelques modifications par rapport aux données d'origine. Veuillez vous assurer que vous utilisez bien notre ensemble de données personnalisé (disponible sur JULIE). 🤓
Pour mener à bien ce projet, votre équipe doit :
- Créer des visualisations
- Entrainer au moins un modèle de régression linéaire sur l'ensemble de données, qui prédit le montant des ventes hebdomadaires en fonction des autres variables
- Évaluer les performances du modèle en utilisant une métrique pertinente pour les problèmes de régression
- Interpréter les coefficients du modèle pour identifier les caractéristiques importantes pour la prédiction
- Entrainer au moins un modèle avec régularisation (Lasso ou Ridge) pour réduire le surapprentissage