Ganho de Informação

Core idea

Overview

O Ganho de Informação mede a redução na incerteza, ou entropia, dentro de um conjunto de dados após ele ser particionado com base em um atributo específico. É o critério principal usado por algoritmos como ID3 e C4.5 para determinar a melhor característica para dividir um nó em uma árvore de decisão.

When to use: Aplique esta métrica durante a construção de modelos de aprendizado supervisionado para avaliar o poder preditivo de variáveis independentes. É mais eficaz ao trabalhar com alvos categóricos onde o objetivo é maximizar a pureza da classe nos subconjuntos resultantes.

Why it matters: Ao identificar características que oferecem o maior Ganho de Informação, modelos podem ser construídos com menos níveis, reduzindo a complexidade computacional. Essa eficiência ajuda a prevenir o *overfitting* e garante que os padrões de dados mais relevantes sejam priorizados durante o treinamento.

Symbols

Variables

IG = Info Gain, $H_{p}$ = Parent Entropy, $H_{c}$ = Child Entropy

IG

Info Gain

bits

H_{p}

Parent Entropy

bits

H_{c}

Child Entropy

bits

Walkthrough

Derivation

Fórmula: Ganho de Informação

O ganho de informação mede o quanto a incerteza (entropia) é reduzida ao dividir um conjunto de dados usando um atributo, guiando a construção de árvores de decisão.

Um conjunto de dados S é dividido em subconjuntos $S_{v}$ por valores v do atributo A.
A entropia H( $\cdot$ ) é calculada na distribuição de classe dentro de cada subconjunto.

1

Declare o ganho de informação para uma divisão:

Subtraia a entropia média ponderada após a divisão da entropia original antes da divisão.

I G (S, A) = H (S) - v \in V a l u es (A) \sum \frac{∣ S _{v} ∣}{∣ S ∣} H (S_{v})

2

Escolha a melhor divisão:

O atributo com o maior ganho de informação produz a maior redução na incerteza naquele nó.

max I G (S, A) \Rightarrow best split

Note: Alguns algoritmos usam a razão de ganho para reduzir o viés em direção a atributos com muitos valores.

Result

max I G (S, A) \Rightarrow best split

Source: Standard curriculum — Machine Learning (Decision Trees)

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Imagine uma coleção mista de itens (nó pai) sendo classificada em grupos menores e mais uniformes (nós filhos) com base em uma característica específica, onde o Ganho de Informação mede o quão mais organizado e menos misturado

Term

A redução na incerteza ou aleatoriedade de um conjunto de dados após ele ser particionado com base em um atributo.

Um Ganho de Informação maior indica que dividir o conjunto de dados por este atributo torna os subconjuntos resultantes significativamente mais previsíveis ou 'puros' em termos de suas classes alvo.

Term

O nível inicial de incerteza ou impureza (entropia) no conjunto de dados antes de qualquer divisão ser feita.

Representa o quão misturadas são as classes no conjunto de dados original; um H(parent) maior significa que as classes estão mais distribuídas uniformemente e, portanto, mais incertas.

Term

A média ponderada da incerteza ou impureza (entropia) dos subconjuntos criados após dividir o conjunto de dados por um atributo particular.

Representa o quão misturadas são as classes nos subconjuntos resultantes; um H(children) menor significa que os subconjuntos são mais homogêneos e menos incertos.

Signs and relationships

- H(children): A subtração de H(children) de H(parent) significa que o Ganho de Informação quantifica a *reduction* na entropia. Nosso objetivo é que a entropia dos nós filhos seja menor que a do nó pai, portanto, um Ganho de Informação positivo

Free study cues

Insight

Canonical usage

O Ganho de Informação é uma pontuação numérica adimensional usada para quantificar a redução de entropia em um conjunto de dados.

Dimension note

O Ganho de Informação é uma grandeza adimensional derivada da diferença entre valores de entropia, os quais são calculados a partir de probabilidades.

One free problem

Practice Problem

Um conjunto de dados tem uma entropia inicial de 0.940 bits. Após dividi-lo com base em uma característica específica, a entropia média ponderada dos nós filhos é de 0.693 bits. Calcule o Ganho de Informação.

Hint: Subtraia a entropia dos filhos da entropia do nó pai.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

No caso de choosing a feature split for a spam filter, Information Gain é utilizado para calcular Info Gain from Parent Entropy and Child Entropy. O resultado importa porque ajuda a avaliar a incerteza, a dispersão ou as evidências antes de tirar uma conclusão dos dados.

Study smarter

Tips

Certifique-se de que a entropia dos filhos é calculada como uma média ponderada com base no número de amostras em cada ramificação.
Esteja ciente de que o Ganho de Informação pode ser viesado em relação a atributos com um grande número de valores distintos.
Um ganho zero indica que a divisão não melhora em nada a pureza do conjunto de dados.

Avoid these traps

Common Mistakes

Somar entropias em vez de subtrair.
Misturar bases de logaritmo.

Keep going

Related Formulas

Common questions

Frequently Asked Questions

O ganho de informação mede o quanto a incerteza (entropia) é reduzida ao dividir um conjunto de dados usando um atributo, guiando a construção de árvores de decisão.

Aplique esta métrica durante a construção de modelos de aprendizado supervisionado para avaliar o poder preditivo de variáveis independentes. É mais eficaz ao trabalhar com alvos categóricos onde o objetivo é maximizar a pureza da classe nos subconjuntos resultantes.

Ao identificar características que oferecem o maior Ganho de Informação, modelos podem ser construídos com menos níveis, reduzindo a complexidade computacional. Essa eficiência ajuda a prevenir o *overfitting* e garante que os padrões de dados mais relevantes sejam priorizados durante o treinamento.

Somar entropias em vez de subtrair. Misturar bases de logaritmo.

No caso de choosing a feature split for a spam filter, Information Gain é utilizado para calcular Info Gain from Parent Entropy and Child Entropy. O resultado importa porque ajuda a avaliar a incerteza, a dispersão ou as evidências antes de tirar uma conclusão dos dados.

Certifique-se de que a entropia dos filhos é calculada como uma média ponderada com base no número de amostras em cada ramificação. Esteja ciente de que o Ganho de Informação pode ser viesado em relação a atributos com um grande número de valores distintos. Um ganho zero indica que a divisão não melhora em nada a pureza do conjunto de dados.

References

Sources

Wikipedia: Information gain (decision tree)
Wikipedia: Entropy (information theory)
An Introduction to Statistical Learning by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Wikipedia: Information gain in decision trees
Standard curriculum — Machine Learning (Decision Trees)

Overview

Variables

Derivation

Declare o ganho de informação para uma divisão:

Escolha a melhor divisão:

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Entropy (Shannon)

Frequently Asked Questions

Sources