Data & Computingसूचना सिद्धांतUniversity
AQAAPOntarioNSWCBSEGCE O-LevelMoECAPS

KL विचलन (बर्नोली)

बर्नोली वितरण के लिए D_KL(p||q).

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

बर्नोली KL विचलन दो बर्नोली वितरणों के बीच सापेक्ष एन्ट्रॉपी को मापता है, जब वितरण q का उपयोग वितरण p का अनुमान लगाने के लिए किया जाता है तो खोई हुई जानकारी को मापता है। यह एक गैर-सममित मीट्रिक है जो एक साझा संभाव्यता स्थान पर दो बाइनरी परिणामों के बीच सांख्यिकीय दूरी की विशेषता बताता है।

When to use: यह समीकरण बाइनरी क्लासिफायर के प्रदर्शन का मूल्यांकन करते समय या सैद्धांतिक मॉडल की तुलना देखी गई बाइनरी आवृत्तियों से करते समय आवश्यक है। इसका उपयोग अक्सर मशीन लर्निंग में बाइनरी क्रॉस-एन्ट्रॉपी जैसे लॉस फंक्शन के एक घटक के रूप में और सूचना-सैद्धांतिक मॉडल चयन के संदर्भ में किया जाता है।

Why it matters: यह एक कठोर तरीका प्रदान करता है जिससे 'आश्चर्य' या अतिरिक्त लागत को मापा जा सकता है, जब एक संभाव्यता का एक सेट माना जाता है जबकि वास्तविकता अलग होती है। व्यवहार में, इस विचलन को कम करने से डेटा ट्रांसमिशन का अनुकूलन होता है और यह सुनिश्चित होता है कि भविष्य कहनेवाला मॉडल वास्तविक डेटा उत्पादन प्रक्रिया के यथासंभव करीब हों।

Symbols

Variables

= KL Divergence, p = True Probability, q = Model Probability

KL Divergence
nats
True Probability
Variable
Model Probability
Variable

Walkthrough

Derivation

KL विचलन (बर्नोली)

KL विचलन वास्तविक संभाव्यता p और मॉडल संभाव्यता q के बीच बेमेल मापता है।

  • बाइनरी चर X∈{0,1}।
  • वास्तविक वितरण: P(X=1)=p।
  • मॉडल वितरण: Q(X=1)=q।
1

KL विचलन की परिभाषा से प्रारंभ करें:

KL संभावनाओं के अपेक्षित लॉग अनुपात है।

2

X=1 और X=0 के लिए संभावनाएँ लिखें:

बर्नोली वितरण उनकी सफलता की संभावनाओं द्वारा निर्धारित होते हैं।

3

अपेक्षा का विस्तार करें:

यह बर्नोली KL विचलन के लिए मानक बंद रूप है।

Result

Visual intuition

Graph

Graph type: quadratic

Why it behaves this way

Intuition

दो अलग-अलग बार चार्ट की कल्पना करें, प्रत्येक दो बार (सफलता और विफलता) के साथ बर्नोली वितरण का प्रतिनिधित्व करता है। KL विचलन पहले बार चार्ट का वर्णन करने के लिए आवश्यक 'अतिरिक्त स्थान' या 'दूरी' की मात्रा निर्धारित करता है

Term
संदर्भ बर्नोली वितरण के लिए 'सफलता' परिणाम की वास्तविक संभाव्यता।
यह किसी घटना के घटित होने की वास्तविक संभावना है, जैसा कि वास्तविक डेटा उत्पन्न प्रक्रिया से देखा या जाना जाता है।
Term
मॉडल बर्नोली वितरण के लिए 'सफलता' परिणाम की अनुमानित या अनुमानित संभाव्यता।
यह उसी घटना की संभावना के लिए हमारे मॉडल का अनुमान या परिकल्पना है।
Term
वास्तविक वितरण 'p' और अनुमानित वितरण 'q' के बीच कुल्बैक-लीब्लर (KL) विचलन।
यह कुल 'सूचना हानि' या 'सापेक्ष एन्ट्रॉपी' है जब हम उन परिणामों का वर्णन करने के लिए 'q' से संभावनाओं का उपयोग करते हैं जो वास्तव में 'p' का पालन करते हैं। एक उच्च मान का अर्थ है कि 'q' 'p' का एक खराब अनुमान है।
Term
'सफलता' परिणाम से कुल विचलन में योगदान।
यह पद तब आश्चर्य या सूचना विसंगति को मापता है जब सफलता की वास्तविक संभावना 'p' होती है लेकिन हमने 'q' की अपेक्षा की थी, 'p' वास्तव में कितनी बार होता है, उससे भारित।
Term
'विफलता' परिणाम से कुल विचलन में योगदान।
सफलता पद के समान, यह 'विफलता' परिणाम के लिए 'आश्चर्य' या सूचना विसंगति को मापता है, इसकी वास्तविक संभाव्यता '1-p' से भारित।

Signs and relationships

  • \ln: लघुगणकीय फ़ंक्शन संभाव्यता अनुपातों को सूचना की इकाइयों (nats, प्राकृतिक लघुगणक के लिए) में परिवर्तित करता है। इसका गुण यह सुनिश्चित करता है कि पद `p\ln(p/q)` और `(1-p)((1-p)/(1-q))` हमेशा गैर-नकारात्मक हों
  • p: वास्तविक संभावनाएँ 'p' और '(1-p)' भार कारक के रूप में कार्य करती हैं। वे यह सुनिश्चित करती हैं कि प्रत्येक परिणाम (सफलता या विफलता) के लिए सूचना विसंगति
  • +: दोनों संभावित परिणामों (सफलता और विफलता) पर कुल अपेक्षित सूचना विसंगति को ध्यान में रखने के लिए दो पदों को जोड़ा जाता है

Free study cues

Insight

Canonical usage

KL Divergence is a dimensionless quantity, often expressed in 'nats' or 'bits' depending on the base of the logarithm used, but fundamentally represents a unitless measure of information.

Dimension note

The KL divergence is inherently dimensionless as it is calculated from probabilities, which are themselves dimensionless ratios. While 'nats' or 'bits' are often used to denote the unit of information, these are not physical units.

One free problem

Practice Problem

एक सिक्का ज्ञात है कि चित आने की वास्तविक संभाव्यता p = 0.5 है। यदि कोई शोधकर्ता इस सिक्के को अनुमानित संभाव्यता q = 0.2 के साथ मॉडल करता है, तो nats में परिणामी KL विचलन की गणना करें।

Hint: p/q और (1-p)/(1-q) दोनों पदों के लिए प्राकृतिक लघुगणक का उपयोग करके मानों को सूत्र में प्लग करें।

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

मापना कि किसी मॉडल की अनुमानित संभाव्यता वास्तविकता से कितनी भिन्न है। के संदर्भ में, KL विचलन (बर्नोली) मापों को ऐसी मान में बदलने के लिए इस्तेमाल होता है जिसे समझा जा सके। परिणाम इसलिए महत्वपूर्ण है क्योंकि यह मॉडल व्यवहार, एल्गोरिदम लागत या पूर्वानुमान गुणवत्ता का मूल्यांकन करने में मदद करता है।

Study smarter

Tips

  • सुनिश्चित करें कि p और q मान शून्य या अनंत के प्राकृतिक लघुगणक से बचने के लिए सख्ती से 0 और 1 के बीच रहें।
  • याद रखें कि D(p||q), D(q||p) के बराबर नहीं है; क्रम सत्य p से मॉडल q की दिशा का प्रतिनिधित्व करता है।
  • 0 का विचलन हमेशा दर्शाता है कि दोनों वितरण पूरी तरह से समान हैं।

Avoid these traps

Common Mistakes

  • p और q को आपस में बदलना (मान बदल देता है)।
  • KL को एक दूरी मीट्रिक मानना (यह सममित नहीं है)।

Common questions

Frequently Asked Questions

KL विचलन वास्तविक संभाव्यता p और मॉडल संभाव्यता q के बीच बेमेल मापता है।

यह समीकरण बाइनरी क्लासिफायर के प्रदर्शन का मूल्यांकन करते समय या सैद्धांतिक मॉडल की तुलना देखी गई बाइनरी आवृत्तियों से करते समय आवश्यक है। इसका उपयोग अक्सर मशीन लर्निंग में बाइनरी क्रॉस-एन्ट्रॉपी जैसे लॉस फंक्शन के एक घटक के रूप में और सूचना-सैद्धांतिक मॉडल चयन के संदर्भ में किया जाता है।

यह एक कठोर तरीका प्रदान करता है जिससे 'आश्चर्य' या अतिरिक्त लागत को मापा जा सकता है, जब एक संभाव्यता का एक सेट माना जाता है जबकि वास्तविकता अलग होती है। व्यवहार में, इस विचलन को कम करने से डेटा ट्रांसमिशन का अनुकूलन होता है और यह सुनिश्चित होता है कि भविष्य कहनेवाला मॉडल वास्तविक डेटा उत्पादन प्रक्रिया के यथासंभव करीब हों।

p और q को आपस में बदलना (मान बदल देता है)। KL को एक दूरी मीट्रिक मानना (यह सममित नहीं है)।

मापना कि किसी मॉडल की अनुमानित संभाव्यता वास्तविकता से कितनी भिन्न है। के संदर्भ में, KL विचलन (बर्नोली) मापों को ऐसी मान में बदलने के लिए इस्तेमाल होता है जिसे समझा जा सके। परिणाम इसलिए महत्वपूर्ण है क्योंकि यह मॉडल व्यवहार, एल्गोरिदम लागत या पूर्वानुमान गुणवत्ता का मूल्यांकन करने में मदद करता है।

सुनिश्चित करें कि p और q मान शून्य या अनंत के प्राकृतिक लघुगणक से बचने के लिए सख्ती से 0 और 1 के बीच रहें। याद रखें कि D(p||q), D(q||p) के बराबर नहीं है; क्रम सत्य p से मॉडल q की दिशा का प्रतिनिधित्व करता है। 0 का विचलन हमेशा दर्शाता है कि दोनों वितरण पूरी तरह से समान हैं।

References

Sources

  1. Elements of Information Theory by Thomas M. Cover and Joy A. Thomas
  2. Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
  3. Wikipedia: Kullback-Leibler divergence
  4. Cover and Thomas, Elements of Information Theory, 2nd ed.
  5. Wikipedia: Bernoulli distribution
  6. IUPAC Gold Book: relative entropy
  7. Cover and Thomas Elements of Information Theory