Binäre Kreuzentropie

Core idea

Overview

Die binäre Kreuzentropie misst die Divergenz zwischen zwei Wahrscheinlichkeitsverteilungen, typischerweise den wahren Labels und den vorhergesagten Wahrscheinlichkeiten in einer binären Klassifikationsaufgabe. Sie berechnet einen Verlustwert, der Vorhersagen exponentiell bestraft, je stärker sie vom tatsächlichen Klassenwert abweichen.

When to use: Diese Gleichung ist die Standard-Verlustfunktion für binäre Klassifikationsprobleme, bei denen die Ausgabe eine einzelne Wahrscheinlichkeit zwischen 0 und 1 ist. Sie ist am wirksamsten, wenn sie mit einer Sigmoid-Aktivierungsfunktion in der letzten Schicht eines neuronalen Netzes kombiniert wird.

Why it matters: Sie liefert eine glatte, konvexe Fläche für die Optimierung, sodass der Gradientenabstieg die Modellgewichte effektiv aktualisieren kann. Durch die starke Bestrafung sicherer, aber falscher Vorhersagen zwingt sie das Modell, klarere Grenzen zwischen Klassen zu lernen.

Symbols

Variables

L = Loss, y = Actual Label (0/1), p = Predicted Prob

L

Loss

Variable

y

Actual Label (0/1)

Variable

p

Predicted Prob

Variable

Walkthrough

Derivation

Formel: Binäre Kreuzentropie (Log-Verlust)

Die binäre Kreuzentropie misst, wie gut die vorhergesagten Wahrscheinlichkeiten $\overset{y}{^}$ mit den wahren binären Labels y übereinstimmen, und bestraft sichere falsche Vorhersagen stark.

Vorhersagen $\overset{y}{^}$ sind Wahrscheinlichkeiten in (0,1), typischerweise von einer Sigmoidfunktion.
Logarithmen sind natürliche Logarithmen, sofern nicht anders angegeben (die Wahl ändert nur die Skalierung).

1

Schreiben Sie den Verlust für ein Beispiel:

Wenn y=1, ist nur - $ln$ ( $\overset{y}{^}$ ) relevant; wenn y=0, ist nur - $ln$ (1- $\overset{y}{^}$ ) relevant.

L (y, \overset{y}{^}) = - [y ln (\overset{y}{^}) + (1 - y) ln (1 - \overset{y}{^})]

2

Mittelwert über N Beispiele:

Der Datensatzverlust ist der Mittelwert der einzelnen Verluste, was eine einzelne Zahl ergibt, die während des Trainings minimiert wird.

J = \frac{1}{N} i = 1 \sum N L (y_{i}, \overset{y}{^}_{i}) = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Note: In der Praxis werden Wahrscheinlichkeiten von 0 und 1 weg abgeschnitten, um $ln$ (0) zu vermeiden.

Result

J = \frac{1}{N} i = 1 \sum N L (y_{i}, \overset{y}{^}_{i}) = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Source: Standard curriculum — Machine Learning (Classification Losses)

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Eine Landschaft, in der das Modell den tiefsten Punkt finden möchte, der die minimale Divergenz zwischen seinen vorhergesagten Wahrscheinlichkeiten und den wahren Klassenlabels darstellt, mit steilen Gradienten, die sichere falsche Vorhersagen stark bestrafen.

Term

Ein Skalarwert, der die Diskrepanz zwischen dem wahren Label und der vorhergesagten Wahrscheinlichkeit für einen einzelnen Datenpunkt quantifiziert.

Ein höherer Wert zeigt eine schlechtere Vorhersage an, was bedeutet, dass das Modell 'falscher' oder weniger 'sicher in der richtigen Antwort' war.

Term

Das tatsächliche, korrekte binäre Klassenlabel (0 oder 1) für die Eingabedaten.

Dies ist der Zielwert, den das Modell zu lernen und vorherzusagen versucht.

Term

Die vom Modell geschätzte Wahrscheinlichkeit, dass das wahre Label 'y' 1 ist.

Stellt das Konfidenzniveau des Modells für die positive Klasse dar.

Term

Der natürliche Logarithmus der vorhergesagten Wahrscheinlichkeit 'p'.

Bestraft das Modell umso stärker, je mehr sich seine vorhergesagte Wahrscheinlichkeit 'p' für die wahre Klasse 0 nähert (d.h. sichere Fehlvorhersage).

Term

Der natürliche Logarithmus der Wahrscheinlichkeit, dass das wahre Label 'y' 0 ist (d.h. 1-p).

Bestraft das Modell umso stärker, je mehr sich seine vorhergesagte Wahrscheinlichkeit 'p' für die wahre Klasse 1 nähert, wenn die wahre Klasse 0 ist (d.h. sichere Fehlvorhersage).

Signs and relationships

-: Der natürliche Logarithmus einer Wahrscheinlichkeit (ein Wert zwischen 0 und 1) ist immer negativ oder null. Um sicherzustellen, dass die Verlustfunktion 'L' ein nicht-negativer Wert ist, der gegen null minimiert werden kann, wird der gesamte Ausdruck multipliziert

Free study cues

Insight

Canonical usage

Diese Gleichung berechnet einen dimensionslosen Verlustwert, der die Abweichung zwischen einem wahren binären Etikett und einer vorhergesagten Wahrscheinlichkeit darstellt.

Dimension note

Alle Variablen in der binären Kreuzentropieformel (wahres Etikett 'y', vorhergesagte Wahrscheinlichkeit 'p' und der resultierende Verlust 'L') sind dimensionslose Größen.

One free problem

Practice Problem

Ein Modell des maschinellen Lernens identifiziert eine Transaktion als betrügerisch (y = 1). Die vorhergesagte Betrugswahrscheinlichkeit des Modells beträgt 0.85. Berechne den binären Kreuzentropie-Verlust für diese spezifische Vorhersage.

Hint: Wenn y = 1, vereinfacht sich die Formel zu L = -ln(p).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Im Kontext von Training eines Spam-Klassifikators mit probabilistischer Ausgabe wird Binäre Kreuzentropie verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.

Study smarter

Tips

Stelle sicher, dass vorhergesagte Werte p innerhalb von (0, 1) bleiben, um undefinierte natürliche Logarithmen bei 0 oder 1 zu vermeiden.
Der Verlust ist nur dann 0, wenn die Vorhersage perfekt mit dem Label übereinstimmt.
Verwende für Mehrklassen-Ziele stattdessen die Variante der kategorischen Kreuzentropie.

Avoid these traps

Common Mistakes

p=0 oder p=1 direkt verwenden.
Den Term (1-y) vergessen.

Keep going

Related Formulas

Common questions

Frequently Asked Questions

Die binäre Kreuzentropie misst, wie gut die vorhergesagten Wahrscheinlichkeiten \hat{y} mit den wahren binären Labels y übereinstimmen, und bestraft sichere falsche Vorhersagen stark.

Diese Gleichung ist die Standard-Verlustfunktion für binäre Klassifikationsprobleme, bei denen die Ausgabe eine einzelne Wahrscheinlichkeit zwischen 0 und 1 ist. Sie ist am wirksamsten, wenn sie mit einer Sigmoid-Aktivierungsfunktion in der letzten Schicht eines neuronalen Netzes kombiniert wird.

Sie liefert eine glatte, konvexe Fläche für die Optimierung, sodass der Gradientenabstieg die Modellgewichte effektiv aktualisieren kann. Durch die starke Bestrafung sicherer, aber falscher Vorhersagen zwingt sie das Modell, klarere Grenzen zwischen Klassen zu lernen.

p=0 oder p=1 direkt verwenden. Den Term (1-y) vergessen.

Im Kontext von Training eines Spam-Klassifikators mit probabilistischer Ausgabe wird Binäre Kreuzentropie verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.

Stelle sicher, dass vorhergesagte Werte p innerhalb von (0, 1) bleiben, um undefinierte natürliche Logarithmen bei 0 oder 1 zu vermeiden. Der Verlust ist nur dann 0, wenn die Vorhersage perfekt mit dem Label übereinstimmt. Verwende für Mehrklassen-Ziele stattdessen die Variante der kategorischen Kreuzentropie.

References

Sources

Wikipedia: Cross-entropy
Goodfellow, I., Bengio, Y., Courville, A. (2016). Deep Learning. MIT Press.
Deep Learning (Ian Goodfellow, Yoshua Bengio, and Aaron Courville)
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (Chapter 6, Section 6.2.2.2)
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. (Chapter 4, Section 4.3.4)
Standard curriculum — Machine Learning (Classification Losses)

Overview

Variables

Derivation

Schreiben Sie den Verlust für ein Beispiel:

Mittelwert über N Beispiele:

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Logistic Function

Frequently Asked Questions

Sources