Informatique et Techniques Numériques en Economie
-
TD 6 - Data mining - Arbres de décision

<< précédent index suivant >>

Présentation générale

L'objectif de ce TD est de comprendre l'algorithme ID3 qui permet la création d'un arbre de décision à partir d'un ensemble de données et de maitriser l'outil DTree qui permet de créer de manière automatique des arbres de décision à partir d'un ensemble de données.

Compétences à acquérir



1-Rappel

a)Qu'est ce qu'un arbre décision

Les arbres de décision sont des classifieurs pour des données représentées par des ensembles attribut/valeur. Un arbre est constitué :

Voici un exemple d'arbre de décision, créé à partir des données contenu dans le tableau. Les attributs sont "Fievre", "Douleur" et "Toux". La classe est "Maladie".

FievreDouleurTouxMaladie
oui Abdomen non Appendicite
non Abdomen oui Appendicite
oui gorge non rhume
oui gorge oui rhume
non gorge oui mal de gorge
oui non non aucune
oui non oui rhume
non non oui refroidissement
non non non aucune

Le but d'un arbre de décision est de permettre de faire de la prédiction : déterminer la classe d'un nouvel exemple à partir des valeurs de ses attributs. La prédiction est utilisée par la plupart des sites de vente. En effet lorsque vous allez sur ce genre de site, on vous propose souvent des articles susceptibles de vous intéresser. Pour cela les sites effectuent du data mining : ils collectent un grand nombre de données sur les achats et les pages visitées par les clients. À l'aide de ces données, ils peuvent ainsi déterminer quel produit ou quelle catégorie de produit est acheté en fonction des caractéristiques des clients. Lorsqu'un nouveau client lambda surfe sur le site, ce dernier est capable de proposer des articles susceptibles de lui plaire en fonction des pages qu'il visite par exemple et ainsi augmenter les chances d'achats.


b) Apprentissage

La construction d'un arbre de décision ne se fait pas au hasard. Le but est de déterminer les meilleurs attributs à placer à chaque noeud pour que l'arbre construit soit le plus petit possible (plus l'arbre est petit plus la prédiction sera facile à obtenir) et qu'en même temps l'arbre soit capable d'effectuer de bonne prédiction. La construction d'un arbre se fait à partir d'un ensemble de données appelé base d'apprentissage. Ces données sont des exemples de la forme (A_1,...,A_N,C_i) où A_1,..,A_n sont les valeurs de chaque attribut et C_i la valeur de la classe pour l'exemple. Une fois l'arbre construit, on le teste généralement sur un ensemble de données appelé base de test.


2-Exercices

Déterminez l'arbre de décision de l'exemple ci dessous.

3-Dtree

a)Installation du logiciel

Le logiciel Dtree est disponible dans outils. Cliquez sur le lien, sauvegardez le dossier dtree.rar sur le bureau puis dézippez l'archive en cliquant dessus. Ouvrez le dossier dtree obtenu en dézippant l'archive et cliquer sur l'icone suivante

Vous arrivez alors devant l'interface suivante :


b)Sélection de données existantes

Pour commencer, nous allons apprendre à utiliser Dtree à l'aide des exemples stockés dans sa base.


c)Création d'une base de test

Les données sont composées d'un ensemble d'exemples qui constituent la base d'apprentissage (training examples). Il est possible de créer une base de test à partir des exemples de la base d'apprentissage.

d)Création de l'arbre de décision

Pour créer un arbre de décision à partir de votre base d'apprentissage, cliquez sur solve [voir]. La barre d'outils propose des boutons afin de créer, modifier l'arbre de décision :

e)Création de votre propre base d'exemples

Il est possible de créer votre propre base d'exemples.

e)Exercice

Vérifiez les arbres de décisions obtenus par calcul à l'aide de Dtree.

f)Exercice

Utilisez phpmyadmin pour créer des données