Informationsgewinn Calculator
Reduktion der Entropie.
Formula first
Overview
Der Informationsgewinn misst die Verringerung von Unsicherheit oder Entropie innerhalb eines Datensatzes, nachdem er anhand eines bestimmten Attributs aufgeteilt wurde. Er ist das primäre Kriterium, das von Algorithmen wie ID3 und C4.5 verwendet wird, um das beste Merkmal für die Aufteilung eines Knotens in einem Entscheidungsbaum zu bestimmen.
Symbols
Variables
IG = Info Gain, = Parent Entropy, = Child Entropy
Apply it well
When To Use
When to use: Wende diese Metrik beim Aufbau überwachter Lernmodelle an, um die Vorhersagekraft unabhängiger Variablen zu bewerten. Sie ist am wirksamsten bei kategorialen Zielgrößen, bei denen das Ziel darin besteht, die Klassenreinheit in den entstehenden Teilmengen zu maximieren.
Why it matters: Durch die Identifikation von Merkmalen mit dem höchsten Informationsgewinn können Modelle mit weniger Ebenen aufgebaut werden, was die Rechenkomplexität reduziert. Diese Effizienz hilft, Überanpassung zu vermeiden, und stellt sicher, dass die relevantesten Datenmuster beim Training priorisiert werden.
Avoid these traps
Common Mistakes
- Entropien addieren statt subtrahieren.
- Logarithmusbasen vermischen.
One free problem
Practice Problem
Ein Datensatz hat eine anfängliche Entropie von 0.940 Bit. Nach der Aufteilung anhand eines bestimmten Merkmals beträgt die gewichtete durchschnittliche Entropie der Kindknoten 0.693 Bit. Berechne den Informationsgewinn.
Hint: Ziehe die Entropie der Kindknoten von der Entropie des Elternknotens ab.
The full worked solution stays in the interactive walkthrough.
References
Sources
- Wikipedia: Information gain (decision tree)
- Wikipedia: Entropy (information theory)
- An Introduction to Statistical Learning by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
- Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Wikipedia: Information gain in decision trees
- Standard curriculum — Machine Learning (Decision Trees)