مكسب المعلومات (Information Gain) Calculator
تقليل في الإنتروبيا.
Formula first
Overview
يقيس مكسب المعلومات (Information Gain) مقدار التخفيض في عدم اليقين، أو الإنتروبيا، ضمن مجموعة بيانات بعد تقسيمها بناءً على سمة محددة. وهو المعيار الأساسي الذي تستخدمه خوارزميات مثل ID3 و C4.5 لتحديد أفضل ميزة لتقسيم عقدة في شجرة القرار.
Symbols
Variables
IG = Info Gain, = Parent Entropy, = Child Entropy
Apply it well
When To Use
When to use: طبق هذا المقياس أثناء بناء نماذج التعلم الخاضع للإشراف لتقييم القوة التنبؤية للمتغيرات المستقلة. يكون أكثر فعالية عند العمل مع الأهداف الفئوية حيث يكون الهدف هو زيادة نقاء الفئة في المجموعات الفرعية الناتجة.
Why it matters: من خلال تحديد الميزات التي تقدم أعلى مكسب للمعلومات، يمكن بناء النماذج بمستويات أقل، مما يقلل من التعقيد الحسابي. تساعد هذه الكفاءة في منع الإفراط في التخصيص (overfitting) وتضمن إعطاء الأولوية لأنماط البيانات الأكثر صلة أثناء التدريب.
Avoid these traps
Common Mistakes
- إضافة الإنتروبيا بدلاً من طرحها.
- خلط أساسات اللوغاريتم.
One free problem
Practice Problem
مجموعة بيانات لديها إنتروبيا أولية قدرها 0.940 بت. بعد تقسيمها بناءً على ميزة محددة، فإن متوسط الإنتروبيا المرجح للعقد الفرعية هو 0.693 بت. احسب مكسب المعلومات.
Hint: اطرح إنتروبيا الفروع من إنتروبيا العقدة الأم.
The full worked solution stays in the interactive walkthrough.
References
Sources
- Wikipedia: Information gain (decision tree)
- Wikipedia: Entropy (information theory)
- An Introduction to Statistical Learning by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
- Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Wikipedia: Information gain in decision trees
- Standard curriculum — Machine Learning (Decision Trees)