Informationsgewinn
Reduktion der Entropie.
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
Der Informationsgewinn misst die Verringerung von Unsicherheit oder Entropie innerhalb eines Datensatzes, nachdem er anhand eines bestimmten Attributs aufgeteilt wurde. Er ist das primäre Kriterium, das von Algorithmen wie ID3 und C4.5 verwendet wird, um das beste Merkmal für die Aufteilung eines Knotens in einem Entscheidungsbaum zu bestimmen.
When to use: Wende diese Metrik beim Aufbau überwachter Lernmodelle an, um die Vorhersagekraft unabhängiger Variablen zu bewerten. Sie ist am wirksamsten bei kategorialen Zielgrößen, bei denen das Ziel darin besteht, die Klassenreinheit in den entstehenden Teilmengen zu maximieren.
Why it matters: Durch die Identifikation von Merkmalen mit dem höchsten Informationsgewinn können Modelle mit weniger Ebenen aufgebaut werden, was die Rechenkomplexität reduziert. Diese Effizienz hilft, Überanpassung zu vermeiden, und stellt sicher, dass die relevantesten Datenmuster beim Training priorisiert werden.
Symbols
Variables
IG = Info Gain, = Parent Entropy, = Child Entropy
Walkthrough
Derivation
Formel: Informationsgewinn (Information Gain)
Der Informationsgewinn misst, wie stark die Unsicherheit (Entropie) durch das Aufteilen eines Datensatzes anhand eines Attributs reduziert wird, und dient als Leitfaden für die Konstruktion von Entscheidungsbäumen.
- Ein Datensatz S wird durch Werte v des Attributs A in Teilmengen unterteilt.
- Die Entropie H() wird für die Klassenverteilung innerhalb jeder Teilmenge berechnet.
Nennen des Informationsgewinns für einen Split:
Subtrahieren der gewichteten durchschnittlichen Entropie nach dem Split von der ursprünglichen Entropie vor dem Split.
Wählen des besten Splits:
Das Attribut mit dem höchsten Informationsgewinn erzeugt die größte Reduzierung der Unsicherheit an diesem Knoten.
Note: Einige Algorithmen verwenden das Gain Ratio, um die Verzerrung gegenüber Attributen mit vielen Werten zu verringern.
Result
Source: Standard curriculum — Machine Learning (Decision Trees)
Visual intuition
Graph
Graph type: logarithmic
Why it behaves this way
Intuition
Stellen Sie sich eine gemischte Sammlung von Elementen (Elternknoten) vor, die basierend auf einem bestimmten Merkmal in kleinere, einheitlichere Gruppen (Kindknoten) sortiert wird, wobei der Informationsgewinn misst, um wie viel organisierter und weniger gemischt
Signs and relationships
- - H(Kinder): Die Subtraktion von H(children) von H(parent) bedeutet, dass der Informationsgewinn die *Verringerung* der Entropie quantifiziert. Wir streben an, dass die Entropie der Kindknoten geringer ist als die des Elternknotens, sodass ein positiver Informationsgewinn eine nützliche Aufteilung anzeigt.
Free study cues
Insight
Canonical usage
Der Informationsgewinn ist ein dimensionsloser numerischer Wert, der zur Quantifizierung der Entropiereduktion innerhalb eines Datensatzes verwendet wird.
Dimension note
Der Informationsgewinn ist eine dimensionslose Größe, die aus der Differenz von Entropiewerten abgeleitet wird, welche selbst aus Wahrscheinlichkeiten berechnet werden.
One free problem
Practice Problem
Ein Datensatz hat eine anfängliche Entropie von 0.940 Bit. Nach der Aufteilung anhand eines bestimmten Merkmals beträgt die gewichtete durchschnittliche Entropie der Kindknoten 0.693 Bit. Berechne den Informationsgewinn.
Hint: Ziehe die Entropie der Kindknoten von der Entropie des Elternknotens ab.
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
Im Kontext von Auswahl einer Merkmalsaufteilung für einen Spam-Filter wird Informationsgewinn verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.
Study smarter
Tips
- Stelle sicher, dass die Entropie der Kindknoten als gewichteter Durchschnitt auf Basis der Anzahl der Stichproben in jedem Zweig berechnet wird.
- Beachte, dass der Informationsgewinn zugunsten von Attributen mit einer großen Anzahl unterschiedlicher Werte verzerrt sein kann.
- Ein Gewinn von null zeigt an, dass die Aufteilung die Reinheit des Datensatzes überhaupt nicht verbessert.
Avoid these traps
Common Mistakes
- Entropien addieren statt subtrahieren.
- Logarithmusbasen vermischen.
Common questions
Frequently Asked Questions
Der Informationsgewinn misst, wie stark die Unsicherheit (Entropie) durch das Aufteilen eines Datensatzes anhand eines Attributs reduziert wird, und dient als Leitfaden für die Konstruktion von Entscheidungsbäumen.
Wende diese Metrik beim Aufbau überwachter Lernmodelle an, um die Vorhersagekraft unabhängiger Variablen zu bewerten. Sie ist am wirksamsten bei kategorialen Zielgrößen, bei denen das Ziel darin besteht, die Klassenreinheit in den entstehenden Teilmengen zu maximieren.
Durch die Identifikation von Merkmalen mit dem höchsten Informationsgewinn können Modelle mit weniger Ebenen aufgebaut werden, was die Rechenkomplexität reduziert. Diese Effizienz hilft, Überanpassung zu vermeiden, und stellt sicher, dass die relevantesten Datenmuster beim Training priorisiert werden.
Entropien addieren statt subtrahieren. Logarithmusbasen vermischen.
Im Kontext von Auswahl einer Merkmalsaufteilung für einen Spam-Filter wird Informationsgewinn verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.
Stelle sicher, dass die Entropie der Kindknoten als gewichteter Durchschnitt auf Basis der Anzahl der Stichproben in jedem Zweig berechnet wird. Beachte, dass der Informationsgewinn zugunsten von Attributen mit einer großen Anzahl unterschiedlicher Werte verzerrt sein kann. Ein Gewinn von null zeigt an, dass die Aufteilung die Reinheit des Datensatzes überhaupt nicht verbessert.
References
Sources
- Wikipedia: Information gain (decision tree)
- Wikipedia: Entropy (information theory)
- An Introduction to Statistical Learning by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
- Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Wikipedia: Information gain in decision trees
- Standard curriculum — Machine Learning (Decision Trees)