İkili Çapraz Entropi

Core idea

Overview

İkili Çapraz Entropi, ikili sınıflandırma görevinde tipik olarak gerçek etiketler ile tahmini olasılıklar arasındaki iki olasılık dağılımının ayrımını ölçer. Gerçek sınıf değerinden saptıkça tahminleri katlanarak cezalandıran bir kayıp değeri hesaplar.

When to use: Bu denklem, çıktının 0 ile 1 arasında tek bir olasılık olduğu ikili sınıflandırma problemleri için standart kayıp fonksiyonudur. Bir sinir ağının son katmanında sigmoid aktivasyon fonksiyonu ile eşleştirildiğinde en etkilidir.

Why it matters: Optimizasyon için düzgün, dışbükey bir yüzey sağlar ve gradyan inişinin model ağırlıklarını etkili bir şekilde güncellemesine olanak tanır. Kendinden emin ancak yanlış tahminleri ağır bir şekilde cezalandırarak, modeli sınıflar arasında daha belirgin sınırlar öğrenmeye zorlar.

Symbols

Variables

L = Loss, y = Actual Label (0/1), p = Predicted Prob

L

Loss

Variable

y

Actual Label (0/1)

Variable

p

Predicted Prob

Variable

Walkthrough

Derivation

Formül: Binary Cross-Entropy (Log Loss)

Binary cross-entropy, tahmin edilen olasılıkların $\overset{y}{^}$ gerçek ikili etiketler y ile ne kadar iyi eşleştiğini ölçer ve aşırı güvenli yanlış tahminleri ağır bir şekilde cezalandırır.

Tahminler $\overset{y}{^}$ (0,1) aralığında olasılıklardır, genellikle bir sigmoidden gelir.
Logaritmalar aksi belirtilmedikçe doğal logaritmadır (seçim yalnızca ölçeği değiştirir).

1

Bir örnek için kaybı yazın:

Eğer y=1 ise, yalnızca - $ln$ ( $\overset{y}{^}$ ) önemlidir; eğer y=0 ise, yalnızca - $ln$ (1- $\overset{y}{^}$ ) önemlidir.

L (y, \overset{y}{^}) = - [y ln (\overset{y}{^}) + (1 - y) ln (1 - \overset{y}{^})]

2

N örnek boyunca ortalama:

Veri seti kaybı, bireysel kayıpların ortalamasıdır ve eğitim sırasında minimize edilecek tek bir sayı verir.

J = \frac{1}{N} i = 1 \sum N L (y_{i}, \overset{y}{^}_{i}) = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Note: Pratikte, olasılıklar $ln$ (0)'ı önlemek için 0 ve 1'den kırpılır.

Result

J = \frac{1}{N} i = 1 \sum N L (y_{i}, \overset{y}{^}_{i}) = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Source: Standard curriculum — Machine Learning (Classification Losses)

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Modelin en düşük noktayı bulmayı hedeflediği, tahmin edilen olasılıkları ile gerçek sınıf etiketleri arasındaki sapmayı en aza indiren bir arazi, kendinden emin yanlışları ciddi şekilde cezalandıran dik gradyanlarla

Term

Tek bir veri noktası için gerçek etiket ile tahmin edilen olasılık arasındaki tutarsızlığı ölçen skaler bir değer.

Daha yüksek bir değer, daha kötü bir tahmini gösterir, bu da modelin daha 'yanlış' olduğu veya 'doğru cevapta' daha az 'kendine güvendiği' anlamına gelir.

Term

Girdi verisi için gerçek, doğru ikili sınıf etiketi (0 veya 1).

Modelin öğrenmeye ve tahmin etmeye çalıştığı hedef değerdir.

Term

Modelin gerçek etiketin 'y'nin 1 olma olasılığına ilişkin tahmini.

Pozitif sınıf için modelin güven seviyesini temsil eder.

Term

Tahmin edilen olasılık 'p'nin doğal logaritması.

Tahmin edilen olasılık 'p' gerçek sınıfa yaklaştıkça model daha ağır cezalandırılır (yani, kendinden emin yanlış tahmin).

Term

Gerçek etiketin 'y'nin 0 olma olasılığının doğal logaritması (yani, 1-p).

Tahmin edilen olasılık 'p' gerçek sınıfa yaklaştığında model daha ağır cezalandırılır (yani, kendinden emin yanlış tahmin).

Signs and relationships

-: Bir olasılığın (0 ile 1 arasındaki bir değer) doğal logaritması her zaman negatif veya sıfırdır. Kayıp fonksiyonu 'L'nin sıfıra doğru en aza indirilebilen negatif olmayan bir değer olmasını sağlamak için, tüm ifade

Free study cues

Insight

Canonical usage

This equation calculates a dimensionless loss value, representing the divergence between a true binary label and a predicted probability.

Dimension note

All variables in the Binary Cross-Entropy formula (true label 'y', predicted probability 'p', and the resulting loss 'L') are dimensionless quantities.

One free problem

Practice Problem

Bir makine öğrenimi modeli bir işlemi hileli olarak tanımlar (y = 1). Modelin hile olasılığı 0.85'tir. Bu özel tahmin için ikili çapraz entropi kaybını hesaplayın.

Hint: y = 1 olduğunda, formül L = -ln(p) olarak basitleşir.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Olasılıksal çıktı ile spam sınıflandırıcısı eğitme bağlamında İkili Çapraz Entropi, ölçümleri yorumlanabilir bir değere dönüştürmek için kullanılır. Sonuç önemlidir çünkü çıktıya güvenmeden önce model davranışını, algoritma maliyetini veya tahmin kalitesini değerlendirmeye yardımcı olur.

Study smarter

Tips

0 veya 1'de tanımsız doğal logaritmaları önlemek için tahmini p değerlerinin (0, 1) içinde kalmasını sağlayın.
Kayıp sadece tahmin etiketi mükemmel bir şekilde eşleşirse 0'dır.
Çok sınıflı hedefler için bunun yerine Kategorik Çapraz Entropi varyantını kullanın.

Avoid these traps

Common Mistakes

Doğrudan p=0 veya p=1 kullanmak.
(1-y) terimini unutmak.

Keep going

Related Formulas

Common questions

Frequently Asked Questions

Binary cross-entropy, tahmin edilen olasılıkların \hat{y} gerçek ikili etiketler y ile ne kadar iyi eşleştiğini ölçer ve aşırı güvenli yanlış tahminleri ağır bir şekilde cezalandırır.

Bu denklem, çıktının 0 ile 1 arasında tek bir olasılık olduğu ikili sınıflandırma problemleri için standart kayıp fonksiyonudur. Bir sinir ağının son katmanında sigmoid aktivasyon fonksiyonu ile eşleştirildiğinde en etkilidir.

Optimizasyon için düzgün, dışbükey bir yüzey sağlar ve gradyan inişinin model ağırlıklarını etkili bir şekilde güncellemesine olanak tanır. Kendinden emin ancak yanlış tahminleri ağır bir şekilde cezalandırarak, modeli sınıflar arasında daha belirgin sınırlar öğrenmeye zorlar.

Doğrudan p=0 veya p=1 kullanmak. (1-y) terimini unutmak.

Olasılıksal çıktı ile spam sınıflandırıcısı eğitme bağlamında İkili Çapraz Entropi, ölçümleri yorumlanabilir bir değere dönüştürmek için kullanılır. Sonuç önemlidir çünkü çıktıya güvenmeden önce model davranışını, algoritma maliyetini veya tahmin kalitesini değerlendirmeye yardımcı olur.

0 veya 1'de tanımsız doğal logaritmaları önlemek için tahmini p değerlerinin (0, 1) içinde kalmasını sağlayın. Kayıp sadece tahmin etiketi mükemmel bir şekilde eşleşirse 0'dır. Çok sınıflı hedefler için bunun yerine Kategorik Çapraz Entropi varyantını kullanın.

References

Sources

Wikipedia: Cross-entropy
Goodfellow, I., Bengio, Y., Courville, A. (2016). Deep Learning. MIT Press.
Deep Learning (Ian Goodfellow, Yoshua Bengio, and Aaron Courville)
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (Chapter 6, Section 6.2.2.2)
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. (Chapter 4, Section 4.3.4)
Standard curriculum — Machine Learning (Classification Losses)

Overview

Variables

Derivation

Bir örnek için kaybı yazın:

N örnek boyunca ortalama:

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Logistic Function

Frequently Asked Questions

Sources