KL विचलन (बर्नोली)

Core idea

Overview

बर्नोली KL विचलन दो बर्नोली वितरणों के बीच सापेक्ष एन्ट्रॉपी को मापता है, जब वितरण q का उपयोग वितरण p का अनुमान लगाने के लिए किया जाता है तो खोई हुई जानकारी को मापता है। यह एक गैर-सममित मीट्रिक है जो एक साझा संभाव्यता स्थान पर दो बाइनरी परिणामों के बीच सांख्यिकीय दूरी की विशेषता बताता है।

When to use: यह समीकरण बाइनरी क्लासिफायर के प्रदर्शन का मूल्यांकन करते समय या सैद्धांतिक मॉडल की तुलना देखी गई बाइनरी आवृत्तियों से करते समय आवश्यक है। इसका उपयोग अक्सर मशीन लर्निंग में बाइनरी क्रॉस-एन्ट्रॉपी जैसे लॉस फंक्शन के एक घटक के रूप में और सूचना-सैद्धांतिक मॉडल चयन के संदर्भ में किया जाता है।

Why it matters: यह एक कठोर तरीका प्रदान करता है जिससे 'आश्चर्य' या अतिरिक्त लागत को मापा जा सकता है, जब एक संभाव्यता का एक सेट माना जाता है जबकि वास्तविकता अलग होती है। व्यवहार में, इस विचलन को कम करने से डेटा ट्रांसमिशन का अनुकूलन होता है और यह सुनिश्चित होता है कि भविष्य कहनेवाला मॉडल वास्तविक डेटा उत्पादन प्रक्रिया के यथासंभव करीब हों।

Symbols

Variables

$D_{K L}$ = KL Divergence, p = True Probability, q = Model Probability

D_{K L}

KL Divergence

nats

p

True Probability

Variable

q

Model Probability

Variable

Walkthrough

Derivation

KL विचलन (बर्नोली)

KL विचलन वास्तविक संभाव्यता p और मॉडल संभाव्यता q के बीच बेमेल मापता है।

बाइनरी चर X∈{0,1}।
वास्तविक वितरण: P(X=1)=p।
मॉडल वितरण: Q(X=1)=q।

1

KL विचलन की परिभाषा से प्रारंभ करें:

KL संभावनाओं के अपेक्षित लॉग अनुपात है।

D_{K L} (P ∥∥ Q) = E_{X \sim P} [ln \frac{P ( X )}{Q ( X )}]

2

X=1 और X=0 के लिए संभावनाएँ लिखें:

बर्नोली वितरण उनकी सफलता की संभावनाओं द्वारा निर्धारित होते हैं।

P (1) = p, Q (1) = q, P (0) = 1 - p, Q (0) = 1 - q

3

अपेक्षा का विस्तार करें:

यह बर्नोली KL विचलन के लिए मानक बंद रूप है।

D_{K L} (p ∥∥ q) = p ln \frac{p}{q} + (1 - p) ln \frac{1 - p}{1 - q}

Result

D_{K L} (p ∥∥ q) = p ln \frac{p}{q} + (1 - p) ln \frac{1 - p}{1 - q}

Visual intuition

Graph

Graph type: quadratic

Why it behaves this way

Intuition

दो अलग-अलग बार चार्ट की कल्पना करें, प्रत्येक दो बार (सफलता और विफलता) के साथ बर्नोली वितरण का प्रतिनिधित्व करता है। KL विचलन पहले बार चार्ट का वर्णन करने के लिए आवश्यक 'अतिरिक्त स्थान' या 'दूरी' की मात्रा निर्धारित करता है

Term

संदर्भ बर्नोली वितरण के लिए 'सफलता' परिणाम की वास्तविक संभाव्यता।

यह किसी घटना के घटित होने की वास्तविक संभावना है, जैसा कि वास्तविक डेटा उत्पन्न प्रक्रिया से देखा या जाना जाता है।

Term

मॉडल बर्नोली वितरण के लिए 'सफलता' परिणाम की अनुमानित या अनुमानित संभाव्यता।

यह उसी घटना की संभावना के लिए हमारे मॉडल का अनुमान या परिकल्पना है।

Term

वास्तविक वितरण 'p' और अनुमानित वितरण 'q' के बीच कुल्बैक-लीब्लर (KL) विचलन।

यह कुल 'सूचना हानि' या 'सापेक्ष एन्ट्रॉपी' है जब हम उन परिणामों का वर्णन करने के लिए 'q' से संभावनाओं का उपयोग करते हैं जो वास्तव में 'p' का पालन करते हैं। एक उच्च मान का अर्थ है कि 'q' 'p' का एक खराब अनुमान है।

Term

'सफलता' परिणाम से कुल विचलन में योगदान।

यह पद तब आश्चर्य या सूचना विसंगति को मापता है जब सफलता की वास्तविक संभावना 'p' होती है लेकिन हमने 'q' की अपेक्षा की थी, 'p' वास्तव में कितनी बार होता है, उससे भारित।

Term

'विफलता' परिणाम से कुल विचलन में योगदान।

सफलता पद के समान, यह 'विफलता' परिणाम के लिए 'आश्चर्य' या सूचना विसंगति को मापता है, इसकी वास्तविक संभाव्यता '1-p' से भारित।

Signs and relationships

\ln: लघुगणकीय फ़ंक्शन संभाव्यता अनुपातों को सूचना की इकाइयों (nats, प्राकृतिक लघुगणक के लिए) में परिवर्तित करता है। इसका गुण यह सुनिश्चित करता है कि पद `p\ln(p/q)` और `(1-p) $ln$ ((1-p)/(1-q))` हमेशा गैर-नकारात्मक हों
p: वास्तविक संभावनाएँ 'p' और '(1-p)' भार कारक के रूप में कार्य करती हैं। वे यह सुनिश्चित करती हैं कि प्रत्येक परिणाम (सफलता या विफलता) के लिए सूचना विसंगति
+: दोनों संभावित परिणामों (सफलता और विफलता) पर कुल अपेक्षित सूचना विसंगति को ध्यान में रखने के लिए दो पदों को जोड़ा जाता है

Free study cues

Insight

Canonical usage

KL Divergence is a dimensionless quantity, often expressed in 'nats' or 'bits' depending on the base of the logarithm used, but fundamentally represents a unitless measure of information.

Dimension note

The KL divergence is inherently dimensionless as it is calculated from probabilities, which are themselves dimensionless ratios. While 'nats' or 'bits' are often used to denote the unit of information, these are not physical units.

One free problem

Practice Problem

एक सिक्का ज्ञात है कि चित आने की वास्तविक संभाव्यता p = 0.5 है। यदि कोई शोधकर्ता इस सिक्के को अनुमानित संभाव्यता q = 0.2 के साथ मॉडल करता है, तो nats में परिणामी KL विचलन की गणना करें।

Hint: p/q और (1-p)/(1-q) दोनों पदों के लिए प्राकृतिक लघुगणक का उपयोग करके मानों को सूत्र में प्लग करें।

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

मापना कि किसी मॉडल की अनुमानित संभाव्यता वास्तविकता से कितनी भिन्न है। के संदर्भ में, KL विचलन (बर्नोली) मापों को ऐसी मान में बदलने के लिए इस्तेमाल होता है जिसे समझा जा सके। परिणाम इसलिए महत्वपूर्ण है क्योंकि यह मॉडल व्यवहार, एल्गोरिदम लागत या पूर्वानुमान गुणवत्ता का मूल्यांकन करने में मदद करता है।

Study smarter

Tips

सुनिश्चित करें कि p और q मान शून्य या अनंत के प्राकृतिक लघुगणक से बचने के लिए सख्ती से 0 और 1 के बीच रहें।
याद रखें कि D(p||q), D(q||p) के बराबर नहीं है; क्रम सत्य p से मॉडल q की दिशा का प्रतिनिधित्व करता है।
0 का विचलन हमेशा दर्शाता है कि दोनों वितरण पूरी तरह से समान हैं।

Avoid these traps

Common Mistakes

p और q को आपस में बदलना (मान बदल देता है)।
KL को एक दूरी मीट्रिक मानना (यह सममित नहीं है)।

Keep going

Related Formulas

Common questions

Frequently Asked Questions

KL विचलन वास्तविक संभाव्यता p और मॉडल संभाव्यता q के बीच बेमेल मापता है।

यह समीकरण बाइनरी क्लासिफायर के प्रदर्शन का मूल्यांकन करते समय या सैद्धांतिक मॉडल की तुलना देखी गई बाइनरी आवृत्तियों से करते समय आवश्यक है। इसका उपयोग अक्सर मशीन लर्निंग में बाइनरी क्रॉस-एन्ट्रॉपी जैसे लॉस फंक्शन के एक घटक के रूप में और सूचना-सैद्धांतिक मॉडल चयन के संदर्भ में किया जाता है।

यह एक कठोर तरीका प्रदान करता है जिससे 'आश्चर्य' या अतिरिक्त लागत को मापा जा सकता है, जब एक संभाव्यता का एक सेट माना जाता है जबकि वास्तविकता अलग होती है। व्यवहार में, इस विचलन को कम करने से डेटा ट्रांसमिशन का अनुकूलन होता है और यह सुनिश्चित होता है कि भविष्य कहनेवाला मॉडल वास्तविक डेटा उत्पादन प्रक्रिया के यथासंभव करीब हों।

p और q को आपस में बदलना (मान बदल देता है)। KL को एक दूरी मीट्रिक मानना (यह सममित नहीं है)।

मापना कि किसी मॉडल की अनुमानित संभाव्यता वास्तविकता से कितनी भिन्न है। के संदर्भ में, KL विचलन (बर्नोली) मापों को ऐसी मान में बदलने के लिए इस्तेमाल होता है जिसे समझा जा सके। परिणाम इसलिए महत्वपूर्ण है क्योंकि यह मॉडल व्यवहार, एल्गोरिदम लागत या पूर्वानुमान गुणवत्ता का मूल्यांकन करने में मदद करता है।

सुनिश्चित करें कि p और q मान शून्य या अनंत के प्राकृतिक लघुगणक से बचने के लिए सख्ती से 0 और 1 के बीच रहें। याद रखें कि D(p||q), D(q||p) के बराबर नहीं है; क्रम सत्य p से मॉडल q की दिशा का प्रतिनिधित्व करता है। 0 का विचलन हमेशा दर्शाता है कि दोनों वितरण पूरी तरह से समान हैं।

References

Sources

Elements of Information Theory by Thomas M. Cover and Joy A. Thomas
Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
Wikipedia: Kullback-Leibler divergence
Cover and Thomas, Elements of Information Theory, 2nd ed.
Wikipedia: Bernoulli distribution
IUPAC Gold Book: relative entropy
Cover and Thomas Elements of Information Theory

Overview

Variables

Derivation

KL विचलन की परिभाषा से प्रारंभ करें:

X=1 और X=0 के लिए संभावनाएँ लिखें:

अपेक्षा का विस्तार करें:

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Cross-Entropy (Bernoulli)

Entropy (Shannon)

Mutual Information (2×2)

Frequently Asked Questions

Sources