Data & ComputingApprendimento AutomaticoUniversity
AQAAPOntarioNSWCBSEGCE O-LevelMoECAPS

Perdita di Entropia Incrociata Binaria

Funzione di perdita per la classificazione.

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

La Perdita di Entropia Incrociata Binaria, o Log Loss, quantifica la differenza tra due distribuzioni di probabilità: le etichette binarie effettive e le probabilità predette. Applica una pesante penalità logaritmica alle previsioni che sono sicure ma errate, guidando algoritmi di ottimizzazione come la discesa del gradiente a migliorare l'accuratezza del modello.

When to use: Questa funzione è specificamente progettata per compiti di classificazione binaria in cui l'output è un singolo valore di probabilità compreso tra 0 e 1. È più comunemente utilizzata come funzione obiettivo per la regressione logistica e le reti neurali che utilizzano una funzione di attivazione sigmoide nello strato di output.

Why it matters: A differenza del semplice errore di classificazione, questa funzione di perdita è differenziabile, il che è essenziale per la retropropagazione nel deep learning. Assicura che il modello venga penalizzato più severamente per essere "confidently wrong" rispetto a essere "uncertainly wrong", portando a previsioni probabilistiche più robuste.

Symbols

Variables

y = True Label (0/1), p = Predicted Prob, L = Loss

True Label (0/1)
Variable
Predicted Prob
Variable
Loss
Variable

Walkthrough

Derivation

Derivazione della Cross-Entropy Binaria (Log Loss)

Deriva la cross-entropy binaria come la log-verosimiglianza negativa per dati con etichette di Bernoulli indipendenti.

  • Gli obiettivi sono etichette binarie: \{0,1\}.
  • Le osservazioni sono indipendenti (i.i.d. per la fattorizzazione della verosimiglianza).
  • L'output del modello soddisfa 0 < _i < 1 (probabilità).
1

Scrivi la Verosimiglianza di Bernoulli:

Se =1 il termine contribuisce _i; se =0 contribuisce (1-_i). L'indipendenza ci permette di moltiplicare su i.

2

Prendi la Log-Verosimiglianza:

Il logaritmo trasforma i prodotti in somme e semplifica l'ottimizzazione.

3

Converti in un Obiettivo di Minimizzazione:

Minimizzare la log-verosimiglianza media negativa è equivalente a massimizzare la verosimiglianza; questa è la cross-entropy binaria.

Result

Source: Standard curriculum — Machine Learning

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Immagina un paesaggio di penalità curvo dove la 'profondità' della curva rappresenta la perdita. Il paesaggio è piatto (perdita zero) quando le previsioni corrispondono perfettamente alle etichette vere, ma precipita ripidamente in valli profonde (alta

Term
Nel ruolo della prima voce (L), il valore di perdita calcolato per una singola previsione.
La prima voce (L) in Derivazione della Cross-Entropy Binaria (Log Loss) va letta come il dato che aggancia il testo al modello statistico: prima si decide se sia nota o cercata, poi si controlla come modifica scala, verso e interpretazione del risultato.
Term
Nel ruolo della seconda voce (y), la vera etichetta binaria per l'istanza (0 per la classe negativa, 1 per la classe positiva).
Nella seconda voce (y) di Derivazione della Cross-Entropy Binaria (Log Loss), il punto pratico consiste nel seguire il passaggio dall'enunciato alla formula; questa quantita non e una lettera isolata, ma un contributo coerente con ipotesi e unita.
Term
Nel ruolo della terza voce (p), la probabilità prevista dal modello che la vera etichetta sia 1 (la classe positiva).
Usa la terza voce (p) in Derivazione della Cross-Entropy Binaria (Log Loss) per verificare quale parte del sistema sta cambiando. Se il suo valore aumenta o diminuisce, la relazione indica quale effetto attendersi sul calcolo finale.

Signs and relationships

  • -: Prima spiegazione: il vincolo - in Derivazione della Cross-Entropy Binaria (Log Loss) stabilisce quale operazione e ammessa e quale lettura va evitata. Prima di usare il risultato numerico, controlla verso, uguaglianza o condizione limite e mantieni coerente il significato della relazione.
  • ln(): Seconda spiegazione: il vincolo ln() in Derivazione della Cross-Entropy Binaria (Log Loss) stabilisce quale operazione e ammessa e quale lettura va evitata. Prima di usare il risultato numerico, controlla verso, uguaglianza o condizione limite e mantieni coerente il significato della relazione.

Free study cues

Insight

Canonical usage

Uso canonico: Binary Cross-Entropy Loss is a dimensionless quantity that quantifies the error between predicted probabilities and true binary labels in classification tasks.

Dimension note

Nota adimensionale: Binary Cross-Entropy Loss is inherently dimensionless because it operates on probabilities and binary labels, which are dimensionless quantities.

Ballpark figures

  • Quantity:

One free problem

Practice Problem

Un modello diagnostico medico prevede una probabilità del 0,85 che un paziente abbia una condizione specifica. Se il paziente ha effettivamente la condizione (y=1), calcolare la perdita di entropia incrociata binaria.

Hint: Poiché y=1, la formula si semplifica in L = -ln(p).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Nel contesto di Addestrare un classificatore gatto/cane, Perdita di Entropia Incrociata Binaria serve a trasformare le misure in un valore interpretabile. Il risultato è importante perché aiuta a valutare il comportamento del modello, il costo dell'algoritmo o la qualità della previsione prima di usare il risultato.

Study smarter

Tips

  • Evitare probabilità di input esattamente 0 o 1 per prevenire instabilità numerica o logaritmi naturali indefiniti.
  • Il valore di perdita sarà 0 solo se la probabilità prevista corrisponde perfettamente all'etichetta target.
  • In scenari multiclasse, utilizzare l'Entropia Incrociata Categoriale invece di questa variante binaria.

Avoid these traps

Common Mistakes

  • Usare il log base 10 (usare il logaritmo naturale).
  • p=0 o p=1 esattamente (causa infinito).

Common questions

Frequently Asked Questions

Deriva la cross-entropy binaria come la log-verosimiglianza negativa per dati con etichette di Bernoulli indipendenti.

Questa funzione è specificamente progettata per compiti di classificazione binaria in cui l'output è un singolo valore di probabilità compreso tra 0 e 1. È più comunemente utilizzata come funzione obiettivo per la regressione logistica e le reti neurali che utilizzano una funzione di attivazione sigmoide nello strato di output.

A differenza del semplice errore di classificazione, questa funzione di perdita è differenziabile, il che è essenziale per la retropropagazione nel deep learning. Assicura che il modello venga penalizzato più severamente per essere "confidently wrong" rispetto a essere "uncertainly wrong", portando a previsioni probabilistiche più robuste.

Usare il log base 10 (usare il logaritmo naturale). p=0 o p=1 esattamente (causa infinito).

Nel contesto di Addestrare un classificatore gatto/cane, Perdita di Entropia Incrociata Binaria serve a trasformare le misure in un valore interpretabile. Il risultato è importante perché aiuta a valutare il comportamento del modello, il costo dell'algoritmo o la qualità della previsione prima di usare il risultato.

Evitare probabilità di input esattamente 0 o 1 per prevenire instabilità numerica o logaritmi naturali indefiniti. Il valore di perdita sarà 0 solo se la probabilità prevista corrisponde perfettamente all'etichetta target. In scenari multiclasse, utilizzare l'Entropia Incrociata Categoriale invece di questa variante binaria.

References

Sources

  1. Wikipedia: Cross-entropy
  2. Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
  3. Deep Learning (Goodfellow, Bengio, Courville)
  4. Pattern Recognition and Machine Learning (Bishop)
  5. Goodfellow, Bengio, and Courville Deep Learning
  6. Bishop Pattern Recognition and Machine Learning
  7. Standard curriculum — Machine Learning