Binärer Kreuzentropie-Verlust
Verlustfunktion für Klassifikation.
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
Der binäre Kreuzentropie-Verlust oder Log-Loss quantifiziert den Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen: den tatsächlichen binären Labels und den vorhergesagten Wahrscheinlichkeiten. Er belegt Vorhersagen, die selbstsicher, aber falsch sind, mit einer starken logarithmischen Strafe und steuert dadurch Optimierungsalgorithmen wie den Gradientenabstieg, um die Modellgenauigkeit zu verbessern.
When to use: Diese Funktion ist speziell für binäre Klassifikationsaufgaben entwickelt, bei denen die Ausgabe ein einzelner Wahrscheinlichkeitswert zwischen 0 und 1 ist. Sie wird am häufigsten als Zielfunktion für logistische Regression und neuronale Netze verwendet, die in der Ausgabeschicht eine Sigmoid-Aktivierungsfunktion nutzen.
Why it matters: Anders als ein einfacher Klassifikationsfehler ist diese Verlustfunktion differenzierbar, was für Backpropagation im Deep Learning essenziell ist. Sie sorgt dafür, dass das Modell stärker bestraft wird, wenn es 'selbstsicher falsch' ist, als wenn es 'unsicher falsch' ist, was zu robusteren probabilistischen Vorhersagen führt.
Symbols
Variables
y = True Label (0/1), p = Predicted Prob, L = Loss
Walkthrough
Derivation
Ableitung: Binäre Kreuzentropie (Log Loss)
Leitet die binäre Kreuzentropie-Verlustfunktion als negative Log-Likelihood für unabhängige, Bernoulli-beschriftete Daten ab.
- Ziele sind binäre Labels: \{0,1\}.
- Beobachtungen sind unabhängig (i.i.d. für die Likelihood-Faktorisierung).
- Modellausgaben erfüllen 0 < _i < 1 (Wahrscheinlichkeiten).
Schreiben Sie die Bernoulli-Likelihood:
Wenn =1 trägt der Term _i bei; wenn =0 trägt er (1-_i) bei. Unabhängigkeit ermöglicht die Multiplikation über i.
Nehmen Sie die Log-Likelihood:
Logarithmus wandelt Produkte in Summen um und erleichtert die Optimierung.
Konvertieren Sie in ein Minimierungsobjektiv:
Die Minimierung der negativen durchschnittlichen Log-Likelihood ist äquivalent zur Maximierung der Likelihood; dies ist die binäre Kreuzentropie.
Result
Source: Standard curriculum — Machine Learning
Visual intuition
Graph
Graph type: logarithmic
Why it behaves this way
Intuition
Stellen Sie sich eine Verlustlandschaft vor, in der die Höhe den Fehler der Vorhersage darstellt. Die Landschaft ist flach bei Null Verlust, wenn die Vorhersagen perfekt mit den tatsächlichen Labels übereinstimmen, und fällt steil in tiefe Täler beziehungsweise steigt stark an, wenn die Vorhersage sicher, aber falsch ist.
Signs and relationships
- -: Der natürliche Logarithmus einer Wahrscheinlichkeit (ein Wert zwischen 0 und 1) ist immer negativ oder null. Das führende negative Vorzeichen kehrt diesen Wert um, sodass die Verlustfunktion nicht-negativ ist und während der Optimierung minimiert werden kann.
- ln(): Die logarithmische Funktion auferlegt eine hohe Strafe, wenn das Modell eine zuversichtliche, aber falsche Vorhersage macht. Wenn beispielsweise das wahre Label 'y' 1 ist, aber 'p' sehr nahe bei 0 liegt, wird 'ln(p)' eine große negative Zahl.
Free study cues
Insight
Canonical usage
Der binäre kreuzentropische Verlust ist eine dimensionslose Größe, die den Fehler zwischen vorhergesagten Wahrscheinlichkeiten und echten binären Etiketten bei Klassifikationsaufgaben quantifiziert.
Dimension note
Der binäre kreuzentropische Verlust ist von Natur aus dimensionslos, da er mit Wahrscheinlichkeiten und binären Etiketten arbeitet, die dimensionslose Größen sind.
Ballpark figures
- Quantity:
One free problem
Practice Problem
Ein medizinisches Diagnosemodell sagt mit einer Wahrscheinlichkeit von 0.85 voraus, dass ein Patient eine bestimmte Erkrankung hat. Wenn der Patient die Erkrankung tatsächlich hat (y=1), berechne den binären Kreuzentropie-Verlust.
Hint: Da y=1 gilt, vereinfacht sich die Formel zu L = -ln(p).
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
Im Kontext von Training eines Katzen/Hunde-Klassifikators wird Binärer Kreuzentropie-Verlust verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.
Study smarter
Tips
- Vermeide Eingabewahrscheinlichkeiten von genau 0 oder 1, um numerische Instabilität oder undefinierte natürliche Logarithmen zu verhindern.
- Der Verlustwert ist nur dann 0, wenn die vorhergesagte Wahrscheinlichkeit perfekt mit dem Ziel-Label übereinstimmt.
- In Mehrklassen-Szenarien solltest du kategoriale Kreuzentropie statt dieser binären Variante verwenden.
Avoid these traps
Common Mistakes
- Logarithmus zur Basis 10 verwenden (verwende den natürlichen Logarithmus).
- p=0 oder p=1 genau (führt zu Unendlichkeit).
Common questions
Frequently Asked Questions
Leitet die binäre Kreuzentropie-Verlustfunktion als negative Log-Likelihood für unabhängige, Bernoulli-beschriftete Daten ab.
Diese Funktion ist speziell für binäre Klassifikationsaufgaben entwickelt, bei denen die Ausgabe ein einzelner Wahrscheinlichkeitswert zwischen 0 und 1 ist. Sie wird am häufigsten als Zielfunktion für logistische Regression und neuronale Netze verwendet, die in der Ausgabeschicht eine Sigmoid-Aktivierungsfunktion nutzen.
Anders als ein einfacher Klassifikationsfehler ist diese Verlustfunktion differenzierbar, was für Backpropagation im Deep Learning essenziell ist. Sie sorgt dafür, dass das Modell stärker bestraft wird, wenn es 'selbstsicher falsch' ist, als wenn es 'unsicher falsch' ist, was zu robusteren probabilistischen Vorhersagen führt.
Logarithmus zur Basis 10 verwenden (verwende den natürlichen Logarithmus). p=0 oder p=1 genau (führt zu Unendlichkeit).
Im Kontext von Training eines Katzen/Hunde-Klassifikators wird Binärer Kreuzentropie-Verlust verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.
Vermeide Eingabewahrscheinlichkeiten von genau 0 oder 1, um numerische Instabilität oder undefinierte natürliche Logarithmen zu verhindern. Der Verlustwert ist nur dann 0, wenn die vorhergesagte Wahrscheinlichkeit perfekt mit dem Ziel-Label übereinstimmt. In Mehrklassen-Szenarien solltest du kategoriale Kreuzentropie statt dieser binären Variante verwenden.
References
Sources
- Wikipedia: Cross-entropy
- Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
- Deep Learning (Goodfellow, Bengio, Courville)
- Pattern Recognition and Machine Learning (Bishop)
- Goodfellow, Bengio, and Courville Deep Learning
- Bishop Pattern Recognition and Machine Learning
- Standard curriculum — Machine Learning