Çapraz Entropi (Bernoulli)

Core idea

Overview

Bernoulli dağılımı için çapraz entropi, gerçek ikili olasılık p ile tahmin edilen olasılık q arasındaki sapmayı nicelendirir. Tahmin edilen dağılımlarının gerçek hedef dağılımdan ne kadar farklı olduğuna göre modelleri cezalandırmak için ikili sınıflandırmada kullanılan standart metriktir.

When to use: Bu denklemi, sonuçların karşılıklı olarak birbirini dışladığı ikili sınıflandırma modellerini değerlendirirken uygulayın. Lojistik regresyon modellerinin ve ikili sinir ağlarının eğitimi sırasında kullanılan birincil kayıp fonksiyonudur.

Why it matters: Bu fonksiyon, model güvenle yanlış olduğunda daha güçlü gradyanlar sağladığı için sınıflandırma için ortalama kare hatadan daha üstündür. Bu, gradyan inişi gibi optimizasyon süreçlerinde daha hızlı yakınsama ile sonuçlanır.

Symbols

Variables

H(p,q) = Cross-Entropy, p = True Probability, q = Model Probability

H(p,q)

Cross-Entropy

nats

p

True Probability

Variable

q

Model Probability

Variable

Walkthrough

Derivation

Bernoulli Değişkenleri için Çapraz Entropi Türetilmesi

Çapraz entropi, veri gerçek olasılık p'yi takip ederken bir model q altındaki beklenen negatif log-olabilirliğidir.

İkili değişken X∈{0,1}.
Gerçek dağılım: P(X=1)=p.
Model dağılımı: Q(X=1)=q.

1

Çapraz entropi tanımından başlayın:

Çapraz entropi, model Q altındaki beklenen negatif log-olabilirliğidir.

H (p, q) = - E_{X \sim p} [ln Q (X)]

2

X=1 ve X=0 üzerinden beklentiyi yazın:

p olasılığıyla 1 (log-olabilirlik ln q) gözlemlersiniz, aksi takdirde 0 (log-olabilirlik ln(1−q)).

H (p, q) = - [p ln q + (1 - p) ln (1 - q)]

Result

H (p, q) = - [p ln q + (1 - p) ln (1 - q)]

Why it behaves this way

Intuition

İki çubuk grafik hayal edin: biri gerçek olasılıkları 'p' ve '1-p'yi temsil ediyor, diğeri ise modelin tahmin ettiği olasılıkları 'q' ve '1-q'yi temsil ediyor.

Term

Tahmin edilen bir 'q' dağılımı için optimize edilmiş bir kod kullanıldığında, gerçek bir 'p' dağılımından bir olayı kodlamak için gereken ortalama bit sayısı.

Gerçek olasılıklar 'p' olduğunda ve tahminleri 'q' olduğunda, tüm olası sonuçlar üzerinden ortalama olarak bir modelin gerçek sonuçtan ne kadar 'şaşırdığını' ölçer. Daha yüksek bir değer, daha büyük bir sapma veya 'sürpriz' anlamına gelir.

Term

Pozitif sınıfın gerçek olasılığı (örneğin, gerçek etiket 1'dir).

Bir olayın gerçekleşmesinin gerçek, gözlemlenen olasılığını temsil eder.

Term

Pozitif sınıfın tahmin edilen olasılığı (örneğin, modelin etiket 1 için çıktısı).

Bir olayın gerçekleşmesi için modelin tahmin ettiği olasılığı temsil eder.

Term

Pozitif sınıfın tahmin edilen olasılığının logaritması.

Bu terim, gerçek sonuç pozitif olduğunda (p=1) kayba katkıda bulunur. Model, gerçek pozitif bir olay için düşük bir 'q' tahmin ettiğinde, küçük 'q' için ln(q) çok negatif olacağından onu ağır şekilde cezalandırır.

Term

Negatif sınıfın tahmin edilen olasılığının logaritması.

Bu terim, gerçek sonuç negatif olduğunda (p=0) kayba katkıda bulunur. Model, gerçek bir negatif olay için yüksek bir 'q' (yani düşük '1-q') tahmin ettiğinde onu ağır şekilde cezalandırır.

Signs and relationships

-: Bir olasılığın (0 ile 1 arasında bir değer) logaritması her zaman negatif veya sıfırdır. Başlangıçtaki negatif işaret, çapraz entropi kaybının pozitif bir değer olmasını sağlar, bu da kayıp fonksiyonları için gelenekseldir.

Free study cues

Insight

Canonical usage

This equation calculates a dimensionless value, often interpreted in 'nats' when using the natural logarithm, quantifying the divergence between two probability distributions.

Dimension note

Cross-entropy is a dimensionless measure of the average number of nats (or bits, if a base-2 logarithm is used) required to identify an event from a true distribution, given an encoding optimized for a predicted

One free problem

Practice Problem

Bir makine öğrenimi modeli, bir resmin kedi içerdiğine dair 0.7 olasılık (q) tahmin eder. Gerçek resim gerçekten bir kedidir (p = 1.0). Bu tahmin için ikili çapraz entropiyi nats cinsinden hesaplayın.

Hint: p = 1 olduğundan, (1-p) terimi sıfır olur, bu da sadece -ln(q) hesaplamanız gerektiği anlamına gelir.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Bir spam filtresinin spam olasılığını fazla/az tahmin etmesi durumunda beklenen log-loss bağlamında Çapraz Entropi (Bernoulli), ölçümleri yorumlanabilir bir değere dönüştürmek için kullanılır. Sonuç önemlidir çünkü çıktıya güvenmeden önce model davranışını, algoritma maliyetini veya tahmin kalitesini değerlendirmeye yardımcı olur.

Study smarter

Tips

Tanımsız log işlemlerini önlemek için tahmin edilen q değerinin kesinlikle 0 ile 1 arasında olduğundan emin olun.
p'nin genellikle gerçek etiketleri temsil ettiğini ve tipik olarak 0 veya 1 olduğunu unutmayın.
Daha düşük çapraz entropi değerleri, gerçek veri dağılımına daha yakından uyumlu bir modeli gösterir.

Avoid these traps

Common Mistakes

Yüzdeler yerine olasılıklar kullanma (70 değil 0.7).
0'ın ln'sini alma (q kesinlikle 0 ile 1 arasında olmalı).

Keep going

Related Formulas

Common questions

Frequently Asked Questions

Çapraz entropi, veri gerçek olasılık p'yi takip ederken bir model q altındaki beklenen negatif log-olabilirliğidir.

Bu denklemi, sonuçların karşılıklı olarak birbirini dışladığı ikili sınıflandırma modellerini değerlendirirken uygulayın. Lojistik regresyon modellerinin ve ikili sinir ağlarının eğitimi sırasında kullanılan birincil kayıp fonksiyonudur.

Bu fonksiyon, model güvenle yanlış olduğunda daha güçlü gradyanlar sağladığı için sınıflandırma için ortalama kare hatadan daha üstündür. Bu, gradyan inişi gibi optimizasyon süreçlerinde daha hızlı yakınsama ile sonuçlanır.

Yüzdeler yerine olasılıklar kullanma (70 değil 0.7). 0'ın ln'sini alma (q kesinlikle 0 ile 1 arasında olmalı).

Bir spam filtresinin spam olasılığını fazla/az tahmin etmesi durumunda beklenen log-loss bağlamında Çapraz Entropi (Bernoulli), ölçümleri yorumlanabilir bir değere dönüştürmek için kullanılır. Sonuç önemlidir çünkü çıktıya güvenmeden önce model davranışını, algoritma maliyetini veya tahmin kalitesini değerlendirmeye yardımcı olur.

Tanımsız log işlemlerini önlemek için tahmin edilen q değerinin kesinlikle 0 ile 1 arasında olduğundan emin olun. p'nin genellikle gerçek etiketleri temsil ettiğini ve tipik olarak 0 veya 1 olduğunu unutmayın. Daha düşük çapraz entropi değerleri, gerçek veri dağılımına daha yakından uyumlu bir modeli gösterir.

References

Sources

Wikipedia: Cross-entropy
Elements of Information Theory (2nd ed.) by Thomas M. Cover and Joy A. Thomas
Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
Elements of Information Theory (Cover and Thomas)
Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016.

Overview

Variables

Derivation

Çapraz entropi tanımından başlayın:

X=1 ve X=0 üzerinden beklentiyi yazın:

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Binary Cross-Entropy Loss

KL Divergence (Bernoulli)

Entropy (Shannon)

Frequently Asked Questions

Sources