KL Diverjansı (Bernoulli)

Core idea

Overview

Bernoulli KL ıraksaklığı, iki Bernoulli dağılımı arasındaki göreceli entropiyi ölçer ve q dağılımı p dağılımını yaklaştırmak için kullanıldığında kaybedilen bilgiyi nicelleştirir. Paylaşılan bir olasılık uzayındaki iki ikili sonuç arasındaki istatistiksel mesafeyi karakterize eden asimetrik bir metriktir.

When to use: Bu denklem, ikili sınıflandırıcıların performansını değerlendirirken veya teorik bir modeli gözlemlenen ikili frekanslarla karşılaştırırken çok önemlidir. Makine öğreniminde İkili Çapraz Entropi gibi kayıp fonksiyonlarının bir bileşeni olarak ve bilgi teorik model seçimi bağlamında sıklıkla uygulanır.

Why it matters: Gerçek farklıyken bir olasılık kümesini varsaymanın neden olduğu 'sürprizi' veya ek maliyeti ölçmek için titiz bir yol sağlar. Pratikte, bu ıraksaklığı en aza indirmek veri iletimini optimize eder ve tahmini modellerin gerçek veri üretim sürecine mümkün olduğunca yakın olmasını sağlar.

Symbols

Variables

$D_{K L}$ = KL Divergence, p = True Probability, q = Model Probability

D_{K L}

KL Divergence

nats

p

True Probability

Variable

q

Model Probability

Variable

Walkthrough

Derivation

Bernoulli Değişkenleri için KL Sapması Türetilmesi

KL sapması, gerçek olasılık p ve model olasılığı q arasındaki uyumsuzluğu ölçer.

İkili değişken X∈{0,1}.
Gerçek dağılım: P(X=1)=p.
Model dağılımı: Q(X=1)=q.

1

KL sapması tanımından başlayın:

KL, olasılıkların beklenen log oranınıdır.

D_{K L} (P ∥∥ Q) = E_{X \sim P} [ln \frac{P ( X )}{Q ( X )}]

2

X=1 ve X=0 için olasılıkları yazın:

Bernoulli dağılımları başarı olasılıkları tarafından belirlenir.

P (1) = p, Q (1) = q, P (0) = 1 - p, Q (0) = 1 - q

3

Beklentiyi genişletin:

Bu, Bernoulli KL sapması için standart kapalı formdur.

D_{K L} (p ∥∥ q) = p ln \frac{p}{q} + (1 - p) ln \frac{1 - p}{1 - q}

Result

D_{K L} (p ∥∥ q) = p ln \frac{p}{q} + (1 - p) ln \frac{1 - p}{1 - q}

Visual intuition

Graph

Graph type: quadratic

Why it behaves this way

Intuition

Her biri bir başarı ve başarısızlık için iki çubuk içeren bir Bernoulli dağılımını temsil eden iki farklı çubuk grafik hayal edin. KL sapması, ilk çubuk grafiği kullanarak tarif etmek için gereken 'ekstra alan' veya 'mesafe'yi ölçer.

Term

Referans Bernoulli dağılımı için 'başarı' sonucunun gerçek olasılığı.

Bu, bir olayın gerçekleşme olasılığıdır, gerçek veri üreten süreçten gözlemlenen veya bilinen.

Term

Model Bernoulli dağılımı için 'başarı' sonucunun tahmin edilen veya yaklaştırılan olasılığı.

Bu, aynı olay için modelimizin tahminidir veya hipotezidir.

Term

Gerçek dağılım 'p' ile yaklaştırılan dağılım 'q' arasındaki Kullback-Leibler (KL) sapması.

Bu, 'q'dan gelen olasılıkları gerçekte 'p'yi takip eden sonuçları tanımlamak için kullandığımızda ortaya çıkan toplam 'bilgi kaybı' veya 'göreli entropidir'. Daha yüksek bir değer, 'q'nın 'p'nin daha kötü bir yaklaşımı olduğu anlamına gelir.

Term

'Başarı' sonucundan toplam sapmaya katkı.

Bu terim, başarının gerçek olasılığı 'p' iken 'q' beklendiğinde ortaya çıkan 'sürpriz' veya bilgi tutarsızlığını, 'p'nin ne sıklıkla gerçekleştiği ile ağırlıklandırarak ölçer.

Term

'Başarısızlık' sonucundan toplam sapmaya katkı.

Başarı terimine benzer şekilde, bu, 'başarısızlık' sonucu için 'sürpriz' veya bilgi tutarsızlığını, gerçek olasılığı '1-p' ile ağırlıklandırarak ölçer.

Signs and relationships

\ln: Logaritmik fonksiyon, olasılık oranlarını bilgi birimlerine (doğal logaritma için nat) dönüştürür. Özelliği, `p\ln(p/q)` ve `(1-p) $ln$ ((1-p)/(1-q))` terimlerinin her zaman negatif olmadığını sağlar.
p: Gerçek olasılıklar 'p' ve '(1-p)', ağırlıklandırma faktörleri olarak işlev görür. Her sonuç (başarı veya başarısızlık) için bilgi tutarsızlığını sağlarlar.
+: Her iki olası sonucun (başarı ve başarısızlık) toplam beklenen bilgi tutarsızlığını hesaba katmak için iki terim toplanır.

Free study cues

Insight

Canonical usage

KL Divergence is a dimensionless quantity, often expressed in 'nats' or 'bits' depending on the base of the logarithm used, but fundamentally represents a unitless measure of information.

Dimension note

The KL divergence is inherently dimensionless as it is calculated from probabilities, which are themselves dimensionless ratios. While 'nats' or 'bits' are often used to denote the unit of information, these are not physical units.

One free problem

Practice Problem

Bir madalyonun tura gelme olasılığının p = 0.5 olduğu bilinmektedir. Bir araştırmacı bu madalyonu tahmini olasılık q = 0.2 ile modelliyorsa, ortaya çıkan KL Diverjansını nats cinsinden hesaplayın.

Hint: Hem p/q hem de (1-p)/(1-q) terimleri için doğal logaritmaları kullanarak değerleri formüle yerleştirin.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Bir modelin tahmin edilen olasılığının gerçeklikten ne kadar farklı olduğunu nicelleştirmek bağlamında KL Diverjansı (Bernoulli), ölçümleri yorumlanabilir bir değere dönüştürmek için kullanılır. Sonuç önemlidir çünkü çıktıya güvenmeden önce model davranışını, algoritma maliyetini veya tahmin kalitesini değerlendirmeye yardımcı olur.

Study smarter

Tips

Sıfır veya sonsuz doğal logaritmaları önlemek için p ve q değerlerinin kesinlikle 0 ile 1 arasında kalmasını sağlayın.
D(p||q) değerinin D(q||p) değerine eşit olmadığını unutmayın; sıra, doğruluk p'den model q'ya doğru yönü temsil eder.
0 ıraksaklık, iki dağılımın tamamen aynı olduğu anlamına gelir.

Avoid these traps

Common Mistakes

p ve q'yu değiştirmek (değeri değiştirir).
KL'nin bir mesafe metriği olduğunu varsaymak (asimetrik değildir).

Keep going

Related Formulas

Common questions

Frequently Asked Questions

KL sapması, gerçek olasılık p ve model olasılığı q arasındaki uyumsuzluğu ölçer.

Bu denklem, ikili sınıflandırıcıların performansını değerlendirirken veya teorik bir modeli gözlemlenen ikili frekanslarla karşılaştırırken çok önemlidir. Makine öğreniminde İkili Çapraz Entropi gibi kayıp fonksiyonlarının bir bileşeni olarak ve bilgi teorik model seçimi bağlamında sıklıkla uygulanır.

Gerçek farklıyken bir olasılık kümesini varsaymanın neden olduğu 'sürprizi' veya ek maliyeti ölçmek için titiz bir yol sağlar. Pratikte, bu ıraksaklığı en aza indirmek veri iletimini optimize eder ve tahmini modellerin gerçek veri üretim sürecine mümkün olduğunca yakın olmasını sağlar.

p ve q'yu değiştirmek (değeri değiştirir). KL'nin bir mesafe metriği olduğunu varsaymak (asimetrik değildir).

Bir modelin tahmin edilen olasılığının gerçeklikten ne kadar farklı olduğunu nicelleştirmek bağlamında KL Diverjansı (Bernoulli), ölçümleri yorumlanabilir bir değere dönüştürmek için kullanılır. Sonuç önemlidir çünkü çıktıya güvenmeden önce model davranışını, algoritma maliyetini veya tahmin kalitesini değerlendirmeye yardımcı olur.

Sıfır veya sonsuz doğal logaritmaları önlemek için p ve q değerlerinin kesinlikle 0 ile 1 arasında kalmasını sağlayın. D(p||q) değerinin D(q||p) değerine eşit olmadığını unutmayın; sıra, doğruluk p'den model q'ya doğru yönü temsil eder. 0 ıraksaklık, iki dağılımın tamamen aynı olduğu anlamına gelir.

References

Sources

Elements of Information Theory by Thomas M. Cover and Joy A. Thomas
Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
Wikipedia: Kullback-Leibler divergence
Cover and Thomas, Elements of Information Theory, 2nd ed.
Wikipedia: Bernoulli distribution
IUPAC Gold Book: relative entropy
Cover and Thomas Elements of Information Theory

Overview

Variables

Derivation

KL sapması tanımından başlayın:

X=1 ve X=0 için olasılıkları yazın:

Beklentiyi genişletin:

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Cross-Entropy (Bernoulli)

Entropy (Shannon)

Mutual Information (2×2)

Frequently Asked Questions

Sources