Gain d'information

Core idea

Overview

Le gain d'information mesure la réduction de l'incertitude, ou entropie, dans un ensemble de données après son partitionnement selon un attribut spécifique. C'est le critère principal utilisé par des algorithmes comme ID3 et C4.5 pour déterminer la meilleure caractéristique pour diviser un nœud dans un arbre de décision.

When to use: Appliquez cette métrique lors de la construction de modèles d'apprentissage supervisé afin d'évaluer le pouvoir prédictif de variables indépendantes. Elle est particulièrement efficace lorsque l'on travaille avec des cibles catégorielles et que l'objectif est de maximiser la pureté des classes dans les sous-ensembles obtenus.

Why it matters: En identifiant les caractéristiques qui offrent le plus grand gain d'information, on peut construire des modèles avec moins de niveaux, réduisant ainsi la complexité de calcul. Cette efficacité aide à prévenir le surapprentissage et garantit que les motifs de données les plus pertinents sont priorisés pendant l'entraînement.

Symbols

Variables

IG = Info Gain, $H_{p}$ = Parent Entropy, $H_{c}$ = Child Entropy

IG

Info Gain

bits

H_{p}

Parent Entropy

bits

H_{c}

Child Entropy

bits

Walkthrough

Derivation

Formule : Gain d'information

Le gain d'information mesure la réduction de l'incertitude (entropie) lors de la division d'un ensemble de données à l'aide d'un attribut, guidant la construction de l'arbre de décision.

Un ensemble de données S est divisé en sous-ensembles $S_{v}$ par les valeurs v de l'attribut A.
L'entropie H( $\cdot$ ) est calculée sur la distribution des classes au sein de chaque sous-ensemble.

1

Énoncer le gain d'information pour une division :

Soustraire l'entropie moyenne pondérée après la division de l'entropie originale avant la division.

I G (S, A) = H (S) - v \in V a l u es (A) \sum \frac{∣ S _{v} ∣}{∣ S ∣} H (S_{v})

2

Choisir la meilleure division :

L'attribut avec le gain d'information le plus élevé produit la plus grande réduction d'incertitude à ce nœud.

max I G (S, A) \Rightarrow best split

Note: Certains algorithmes utilisent le ratio de gain pour réduire le biais envers les attributs à valeurs multiples.

Result

max I G (S, A) \Rightarrow best split

Source: Standard curriculum — Machine Learning (Decision Trees)

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Imaginez une collection mixte d'articles (nœud parent) triés en groupes plus petits et plus uniformes (nœuds enfants) sur la base d'une caractéristique spécifique, où le gain d'information mesure à quel point l'organisation est accrue et le mélange réduit.

Term

La réduction de l'incertitude ou du caractère aléatoire d'un ensemble de données après qu'il a été partitionné sur la base d'un attribut.

Un gain d'information plus élevé indique que la division de l'ensemble de données par cet attribut rend les sous-ensembles résultants nettement plus prévisibles ou « plus purs » en termes de classes cibles.

Term

Le niveau initial d'incertitude ou d'impureté (entropie) dans l'ensemble de données avant qu'une division ne soit effectuée.

Représente le degré de mélange des classes dans l'ensemble de données original ; un H(parent) plus élevé signifie que les classes sont réparties plus uniformément et donc plus incertaines.

Term

L'incertitude ou l'impureté moyenne pondérée (entropie) des sous-ensembles créés après avoir divisé l'ensemble de données par un attribut particulier.

Représente le degré de mélange des classes dans les sous-ensembles résultants ; un H(children) plus faible signifie que les sous-ensembles sont plus homogènes et moins incertains.

Signs and relationships

- H(children): La soustraction de H(children) de H(parent) signifie que le gain d'information quantifie la *reduction* d'entropie. Nous visons à ce que l'entropie des nœuds enfants soit inférieure à celle du nœud parent, de sorte qu'une valeur positive du gain d'information indique un progrès.

Free study cues

Insight

Canonical usage

Le gain d'information est un score numérique adimensionnel utilisé pour quantifier la réduction d'entropie au sein d'un ensemble de données.

Dimension note

Le gain d'information est une grandeur adimensionnelle dérivée de la différence entre des valeurs d'entropie, elles-mêmes calculées à partir de probabilités.

One free problem

Practice Problem

Un ensemble de données a une entropie initiale de 0,940 bit. Après l'avoir divisé selon une caractéristique spécifique, l'entropie moyenne pondérée des nœuds enfants est de 0,693 bit. Calculez le gain d'information.

Hint: Soustrayez l'entropie des enfants de l'entropie du nSud parent.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Dans le contexte de Choisir une division de caractéristique pour un filtre anti-spam, Gain d'information sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.

Study smarter

Tips

Assurez-vous que l'entropie des enfants est calculée comme une moyenne pondérée basée sur le nombre d'échantillons dans chaque branche.
Sachez que le gain d'information peut être biaisé en faveur d'attributs ayant un grand nombre de valeurs distinctes.
Un gain nul indique que la division n'améliore pas du tout la pureté de l'ensemble de données.

Avoid these traps

Common Mistakes

Additionner les entropies au lieu de les soustraire.
Mélanger les bases logarithmiques.

Keep going

Related Formulas

Common questions

Frequently Asked Questions

Le gain d'information mesure la réduction de l'incertitude (entropie) lors de la division d'un ensemble de données à l'aide d'un attribut, guidant la construction de l'arbre de décision.

Appliquez cette métrique lors de la construction de modèles d'apprentissage supervisé afin d'évaluer le pouvoir prédictif de variables indépendantes. Elle est particulièrement efficace lorsque l'on travaille avec des cibles catégorielles et que l'objectif est de maximiser la pureté des classes dans les sous-ensembles obtenus.

En identifiant les caractéristiques qui offrent le plus grand gain d'information, on peut construire des modèles avec moins de niveaux, réduisant ainsi la complexité de calcul. Cette efficacité aide à prévenir le surapprentissage et garantit que les motifs de données les plus pertinents sont priorisés pendant l'entraînement.

Additionner les entropies au lieu de les soustraire. Mélanger les bases logarithmiques.

Dans le contexte de Choisir une division de caractéristique pour un filtre anti-spam, Gain d'information sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.

Assurez-vous que l'entropie des enfants est calculée comme une moyenne pondérée basée sur le nombre d'échantillons dans chaque branche. Sachez que le gain d'information peut être biaisé en faveur d'attributs ayant un grand nombre de valeurs distinctes. Un gain nul indique que la division n'améliore pas du tout la pureté de l'ensemble de données.

References

Sources

Wikipedia: Information gain (decision tree)
Wikipedia: Entropy (information theory)
An Introduction to Statistical Learning by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Wikipedia: Information gain in decision trees
Standard curriculum — Machine Learning (Decision Trees)

Overview

Variables

Derivation

Énoncer le gain d'information pour une division :

Choisir la meilleure division :

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Entropy (Shannon)

Frequently Asked Questions

Sources