सूचना लाभ
एन्ट्रॉपी में कमी।
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
सूचना लाभ किसी विशिष्ट विशेषता के आधार पर डेटासेट को विभाजित करने के बाद अनिश्चितता, या एन्ट्रॉपी में कमी को मापता है। यह ID3 और C4.5 जैसे एल्गोरिदम द्वारा निर्णय वृक्ष में एक नोड को विभाजित करने के लिए सर्वोत्तम सुविधा निर्धारित करने के लिए उपयोग किया जाने वाला प्राथमिक मानदंड है।
When to use: स्वतंत्र चर की भविष्य कहनेवाला शक्ति का मूल्यांकन करने के लिए पर्यवेक्षित शिक्षण मॉडल के निर्माण के दौरान इस मीट्रिक को लागू करें। यह तब सबसे प्रभावी होता है जब श्रेणीबद्ध लक्ष्यों के साथ काम कर रहे हों जहाँ परिणामी उपसमूहों में वर्ग शुद्धता को अधिकतम करना लक्ष्य होता है।
Why it matters: उच्चतम सूचना लाभ प्रदान करने वाली सुविधाओं की पहचान करके, मॉडल को कम स्तरों के साथ बनाया जा सकता है, जिससे कम्प्यूटेशनल जटिलता कम हो जाती है। यह दक्षता ओवरफिटिंग को रोकने में मदद करती है और सुनिश्चित करती है कि प्रशिक्षण के दौरान सबसे प्रासंगिक डेटा पैटर्न को प्राथमिकता दी जाती है।
Symbols
Variables
IG = Info Gain, = Parent Entropy, = Child Entropy
Walkthrough
Derivation
सूत्र: सूचना लाभ
सूचना लाभ एक विशेषता का उपयोग करके डेटासेट को विभाजित करके अनिश्चितता (एन्ट्रॉपी) की मात्रा को मापता है, जिससे निर्णय वृक्ष निर्माण का मार्गदर्शन होता है।
- एक डेटासेट S को विशेषता A के मानों v द्वारा उपसमुच्चय में विभाजित किया गया है।
- एन्ट्रॉपी H() प्रत्येक उपसमुच्चय के भीतर वर्ग वितरण पर गणना की जाती है।
विभाजन के लिए सूचना लाभ बताएं:
विभाजन के बाद भारित औसत एन्ट्रॉपी को विभाजन से पहले मूल एन्ट्रॉपी से घटाएं।
सर्वश्रेष्ठ विभाजन चुनें:
उच्चतम सूचना लाभ वाली विशेषता उस नोड पर अनिश्चितता में सबसे बड़ी कमी पैदा करती है।
Note: कुछ एल्गोरिदम बहु-मान वाली विशेषताओं के प्रति पूर्वाग्रह को कम करने के लिए गेन रेशियो का उपयोग करते हैं।
Result
Source: Standard curriculum — Machine Learning (Decision Trees)
Visual intuition
Graph
Graph type: logarithmic
Why it behaves this way
Intuition
वस्तुओं के एक मिश्रित संग्रह (पैरेंट नोड) की कल्पना करें जिसे एक विशिष्ट विशेषता के आधार पर छोटे, अधिक समान समूहों (चाइल्ड नोड्स) में क्रमबद्ध किया जा रहा है, जहाँ सूचना लाभ मापता है कि कितना अधिक संगठित और कम मिश्रित
Signs and relationships
- - H(children): H(children) को H(parent) से घटाना यह दर्शाता है कि सूचना लाभ एन्ट्रॉपी में *reduction* को मापता है। हमारा लक्ष्य चाइल्ड नोड्स की एन्ट्रॉपी को पैरेंट नोड से कम रखना है, इसलिए एक धनात्मक सूचना
Free study cues
Insight
Canonical usage
Information Gain is a dimensionless numerical score used to quantify the reduction in entropy within a dataset.
Dimension note
Information Gain is a dimensionless quantity derived from the difference in entropy values, which are themselves calculated from probabilities.
One free problem
Practice Problem
एक डेटासेट में प्रारंभिक एन्ट्रॉपी 0.940 बिट्स है। किसी विशिष्ट सुविधा के आधार पर इसे विभाजित करने के बाद, बच्चे नोड्स की भारित औसत एन्ट्रॉपी 0.693 बिट्स है। सूचना लाभ की गणना करें।
Hint: माता-पिता नोड की एन्ट्रॉपी से बच्चों की एन्ट्रॉपी घटाएं।
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
स्पैम फ़िल्टर के लिए एक सुविधा विभाजन चुनना। के संदर्भ में, सूचना लाभ मापों को ऐसी मान में बदलने के लिए इस्तेमाल होता है जिसे समझा जा सके। परिणाम इसलिए महत्वपूर्ण है क्योंकि यह मॉडल व्यवहार, एल्गोरिदम लागत या पूर्वानुमान गुणवत्ता का मूल्यांकन करने में मदद करता है।
Study smarter
Tips
- सुनिश्चित करें कि बच्चों की एन्ट्रॉपी प्रत्येक शाखा में नमूनों की संख्या के आधार पर भारित औसत के रूप में गणना की जाती है।
- इस बात से अवगत रहें कि सूचना लाभ बड़ी संख्या में विशिष्ट मानों वाले गुणों की ओर पक्षपाती हो सकता है।
- शून्य का लाभ इंगित करता है कि विभाजन डेटासेट की शुद्धता में बिल्कुल भी सुधार नहीं करता है।
Avoid these traps
Common Mistakes
- एन्ट्रॉपी घटाने के बजाय जोड़ना।
- लॉग बेस को मिलाना।
Common questions
Frequently Asked Questions
सूचना लाभ एक विशेषता का उपयोग करके डेटासेट को विभाजित करके अनिश्चितता (एन्ट्रॉपी) की मात्रा को मापता है, जिससे निर्णय वृक्ष निर्माण का मार्गदर्शन होता है।
स्वतंत्र चर की भविष्य कहनेवाला शक्ति का मूल्यांकन करने के लिए पर्यवेक्षित शिक्षण मॉडल के निर्माण के दौरान इस मीट्रिक को लागू करें। यह तब सबसे प्रभावी होता है जब श्रेणीबद्ध लक्ष्यों के साथ काम कर रहे हों जहाँ परिणामी उपसमूहों में वर्ग शुद्धता को अधिकतम करना लक्ष्य होता है।
उच्चतम सूचना लाभ प्रदान करने वाली सुविधाओं की पहचान करके, मॉडल को कम स्तरों के साथ बनाया जा सकता है, जिससे कम्प्यूटेशनल जटिलता कम हो जाती है। यह दक्षता ओवरफिटिंग को रोकने में मदद करती है और सुनिश्चित करती है कि प्रशिक्षण के दौरान सबसे प्रासंगिक डेटा पैटर्न को प्राथमिकता दी जाती है।
एन्ट्रॉपी घटाने के बजाय जोड़ना। लॉग बेस को मिलाना।
स्पैम फ़िल्टर के लिए एक सुविधा विभाजन चुनना। के संदर्भ में, सूचना लाभ मापों को ऐसी मान में बदलने के लिए इस्तेमाल होता है जिसे समझा जा सके। परिणाम इसलिए महत्वपूर्ण है क्योंकि यह मॉडल व्यवहार, एल्गोरिदम लागत या पूर्वानुमान गुणवत्ता का मूल्यांकन करने में मदद करता है।
सुनिश्चित करें कि बच्चों की एन्ट्रॉपी प्रत्येक शाखा में नमूनों की संख्या के आधार पर भारित औसत के रूप में गणना की जाती है। इस बात से अवगत रहें कि सूचना लाभ बड़ी संख्या में विशिष्ट मानों वाले गुणों की ओर पक्षपाती हो सकता है। शून्य का लाभ इंगित करता है कि विभाजन डेटासेट की शुद्धता में बिल्कुल भी सुधार नहीं करता है।
References
Sources
- Wikipedia: Information gain (decision tree)
- Wikipedia: Entropy (information theory)
- An Introduction to Statistical Learning by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
- Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Wikipedia: Information gain in decision trees
- Standard curriculum — Machine Learning (Decision Trees)