Projet CAH (Classification Ascendante Hiérarchique)

Description

Dans le cadre d'un cours de M1 "Algorithmique - Développement Python", j'ai fait ce projet dont l’objectif est de développer une série de classes Python permettant de mettre en œuvre l'algorithme de classification non supervisé CAH (classification ascendante hiérarchique). Ce projet implémente une Classification Ascendante Hiérarchique (CAH) pour regrouper des textes en clusters selon leur similarité. Il récupère des textes depuis des pages web (scrap), les transforme en vecteurs et les classe. Le projet permet aussi d'ajouter ou supprimer des textes manuellement et d'afficher les résultats au format JSON.

Fonctionnalités principales

Tokenisation des textes
Scraping de pages Wikisource
Vecteur TF-IDF
Calcul de similarité cosinus
Classification ascendante hiérarchique (CAH)

Structure des dossiers

CAH.py : implémentation de la CAH
tokenizer.py : tokenisation des textes
ressources/ : fichiers stopwords.txt et grammar.txt pour le traitement des textes
texts/ : dossier où les textes extraits des pages web seront enregistrés
main.py : Point d'entrée du programme

Dossiers ressources

stopwords.txt : liste des mots à ignorer lors de la classification
grammar.txt : fichier de grammaire pour la tokenisation

Pistes d'amélioration

Gestion des caractères spéciaux dans l'affichage json
Récupération automatique de labels sur add_text et scrap_text
Affichage de la matrice de similarité
Utilisation d'un facteur tf_idf
Affichage d'une représentation en dendogramme
Incorporation des linkage_method single et complete à notre fonction classify

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
__pycache__		__pycache__
ressources		ressources
texts		texts
cah.py		cah.py
main.py		main.py
readme.md		readme.md
tokenizer.py		tokenizer.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Projet CAH (Classification Ascendante Hiérarchique)

Description

Fonctionnalités principales

Structure des dossiers

Dossiers ressources

Pistes d'amélioration

About

Uh oh!

Releases

Packages

Languages

bonzid/cah

Folders and files

Latest commit

History

Repository files navigation

Projet CAH (Classification Ascendante Hiérarchique)

Description

Fonctionnalités principales

Structure des dossiers

Dossiers ressources

Pistes d'amélioration

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages