مكسب المعلومات (Information Gain)
تقليل في الإنتروبيا.
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
يقيس مكسب المعلومات (Information Gain) مقدار التخفيض في عدم اليقين، أو الإنتروبيا، ضمن مجموعة بيانات بعد تقسيمها بناءً على سمة محددة. وهو المعيار الأساسي الذي تستخدمه خوارزميات مثل ID3 و C4.5 لتحديد أفضل ميزة لتقسيم عقدة في شجرة القرار.
When to use: طبق هذا المقياس أثناء بناء نماذج التعلم الخاضع للإشراف لتقييم القوة التنبؤية للمتغيرات المستقلة. يكون أكثر فعالية عند العمل مع الأهداف الفئوية حيث يكون الهدف هو زيادة نقاء الفئة في المجموعات الفرعية الناتجة.
Why it matters: من خلال تحديد الميزات التي تقدم أعلى مكسب للمعلومات، يمكن بناء النماذج بمستويات أقل، مما يقلل من التعقيد الحسابي. تساعد هذه الكفاءة في منع الإفراط في التخصيص (overfitting) وتضمن إعطاء الأولوية لأنماط البيانات الأكثر صلة أثناء التدريب.
Symbols
Variables
IG = Info Gain, = Parent Entropy, = Child Entropy
Walkthrough
Derivation
الصيغة: كسب المعلومات
يقيس كسب المعلومات مقدار تقليل عدم اليقين (الإنتروبيا) عن طريق تقسيم مجموعة بيانات باستخدام سمة، مما يوجه بناء شجرة القرار.
- يتم تقسيم مجموعة بيانات S إلى مجموعات فرعية بواسطة قيم v للسمة A.
- يتم حساب الإنتروبيا H() على توزيع الفئة داخل كل مجموعة فرعية.
اذكر كسب المعلومات للتقسيم:
اطرح متوسط الإنتروبيا المرجح بعد التقسيم من الإنتروبيا الأصلية قبل التقسيم.
اختر أفضل تقسيم:
السمة ذات أعلى كسب معلومات تنتج أكبر انخفاض في عدم اليقين في تلك العقدة.
Note: تستخدم بعض الخوارزميات نسبة الكسب لتقليل التحيز نحو السمات متعددة القيم.
Result
Source: Standard curriculum — Machine Learning (Decision Trees)
Visual intuition
Graph
Graph type: logarithmic
Why it behaves this way
Intuition
تخيل مجموعة مختلطة من العناصر (عقدة أصل) يتم فرزها إلى مجموعات أصغر وأكثر انتظامًا (عقد فرعية) بناءً على خاصية معينة، حيث يقيس كسب المعلومات مدى تنظيم وترتيب هذه المجموعات بشكل أكبر وتقليل اختلاطها،
Signs and relationships
- - H(children): يشير طرح H(children) من H(parent) إلى أن كسب المعلومات يقيس *reduction* في الإنتروبيا. نهدف إلى أن تكون إنتروبيا العقد الفرعية أقل من العقدة الأم، لذا فإن كسب معلومات إيجابي
Free study cues
Insight
Canonical usage
كسب المعلومات هو درجة عددية غير بعدية تستخدم لقياس الانخفاض في الإنتروبيا داخل مجموعة بيانات.
Dimension note
كسب المعلومات هو كمية غير بعدية مشتقة من الفرق في قيم الإنتروبيا، والتي تُحسب بذاتها من الاحتمالات.
One free problem
Practice Problem
مجموعة بيانات لديها إنتروبيا أولية قدرها 0.940 بت. بعد تقسيمها بناءً على ميزة محددة، فإن متوسط الإنتروبيا المرجح للعقد الفرعية هو 0.693 بت. احسب مكسب المعلومات.
Hint: اطرح إنتروبيا الفروع من إنتروبيا العقدة الأم.
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
في سياق اختيار تقسيم ميزة لفلتر البريد العشوائي، تُستخدم معادلة مكسب المعلومات (Information Gain) لتحويل القياسات إلى قيمة يمكن تفسيرها. وتكمن أهمية الناتج في أنه يساعد على تقييم سلوك النموذج أو تكلفة الخوارزمية أو جودة التنبؤ قبل استخدام الناتج.
Study smarter
Tips
- تأكد من حساب إنتروبيا الفروع كمتوسط مرجح بناءً على عدد العينات في كل فرع.
- كن على دراية بأن مكسب المعلومات يمكن أن يكون متحيزًا نحو السمات التي تحتوي على عدد كبير من القيم المميزة.
- يشير الكسب الصفري إلى أن الانقسام لا يحسن نقاء مجموعة البيانات على الإطلاق.
Avoid these traps
Common Mistakes
- إضافة الإنتروبيا بدلاً من طرحها.
- خلط أساسات اللوغاريتم.
Common questions
Frequently Asked Questions
يقيس كسب المعلومات مقدار تقليل عدم اليقين (الإنتروبيا) عن طريق تقسيم مجموعة بيانات باستخدام سمة، مما يوجه بناء شجرة القرار.
طبق هذا المقياس أثناء بناء نماذج التعلم الخاضع للإشراف لتقييم القوة التنبؤية للمتغيرات المستقلة. يكون أكثر فعالية عند العمل مع الأهداف الفئوية حيث يكون الهدف هو زيادة نقاء الفئة في المجموعات الفرعية الناتجة.
من خلال تحديد الميزات التي تقدم أعلى مكسب للمعلومات، يمكن بناء النماذج بمستويات أقل، مما يقلل من التعقيد الحسابي. تساعد هذه الكفاءة في منع الإفراط في التخصيص (overfitting) وتضمن إعطاء الأولوية لأنماط البيانات الأكثر صلة أثناء التدريب.
إضافة الإنتروبيا بدلاً من طرحها. خلط أساسات اللوغاريتم.
في سياق اختيار تقسيم ميزة لفلتر البريد العشوائي، تُستخدم معادلة مكسب المعلومات (Information Gain) لتحويل القياسات إلى قيمة يمكن تفسيرها. وتكمن أهمية الناتج في أنه يساعد على تقييم سلوك النموذج أو تكلفة الخوارزمية أو جودة التنبؤ قبل استخدام الناتج.
تأكد من حساب إنتروبيا الفروع كمتوسط مرجح بناءً على عدد العينات في كل فرع. كن على دراية بأن مكسب المعلومات يمكن أن يكون متحيزًا نحو السمات التي تحتوي على عدد كبير من القيم المميزة. يشير الكسب الصفري إلى أن الانقسام لا يحسن نقاء مجموعة البيانات على الإطلاق.
References
Sources
- Wikipedia: Information gain (decision tree)
- Wikipedia: Entropy (information theory)
- An Introduction to Statistical Learning by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
- Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Wikipedia: Information gain in decision trees
- Standard curriculum — Machine Learning (Decision Trees)