Entropia Incrociata Binaria

Core idea

Overview

L'entropia incrociata binaria misura la divergenza tra due distribuzioni di probabilità, tipicamente le etichette vere e le probabilità predette in un compito di classificazione binaria. Calcola un valore di perdita che penalizza le previsioni esponenzialmente man mano che divergono dal valore della classe effettiva.

When to use: Questa equazione è la funzione di perdita standard per problemi di classificazione binaria in cui l'output è una singola probabilità compresa tra 0 e 1. È più efficace se abbinata a una funzione di attivazione sigmoide nello strato finale di una rete neurale.

Why it matters: Fornisce una superficie liscia e convessa per l'ottimizzazione, consentendo alla discesa del gradiente di aggiornare efficacemente i pesi del modello. Penalizzando fortemente le previsioni sicure ma errate, costringe il modello a imparare confini più distinti tra le classi.

Symbols

Variables

L = Loss, y = Actual Label (0/1), p = Predicted Prob

L

Loss

Variable

y

Actual Label (0/1)

Variable

p

Predicted Prob

Variable

Walkthrough

Derivation

Formula: Entropia Incrociata Binaria (Log Loss)

L'entropia incrociata binaria misura quanto bene le probabilità predette $\overset{y}{^}$ corrispondono alle etichette binarie reali y, penalizzando pesantemente le previsioni errate sicure.

Le etichette binarie y\in\{0,1\}.
Le previsioni $\overset{y}{^}$ sono probabilità in (0,1), comunemente da una sigmoide.
I logaritmi sono logaritmi naturali a meno che non sia specificato diversamente (la scelta cambia solo la scala).

1

Scrivere la perdita per un singolo esempio:

Se y=1, conta solo - $ln$ ( $\overset{y}{^}$ ); se y=0, conta solo - $ln$ (1- $\overset{y}{^}$ ).

L (y, \overset{y}{^}) = - [y ln (\overset{y}{^}) + (1 - y) ln (1 - \overset{y}{^})]

2

Media su N esempi:

La perdita del set di dati è la media delle perdite individuali, fornendo un singolo numero da minimizzare durante l'allenamento.

J = \frac{1}{N} i = 1 \sum N L (y_{i}, \overset{y}{^}_{i}) = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Note: In pratica, le probabilità vengono ritagliate lontano da 0 e 1 per evitare $ln$ (0).

Result

J = \frac{1}{N} i = 1 \sum N L (y_{i}, \overset{y}{^}_{i}) = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Source: Standard curriculum — Machine Learning (Classification Losses)

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Un paesaggio in cui il modello mira a trovare il punto più basso, che rappresenta la minima divergenza tra le probabilità previste e le etichette delle classi reali, con gradienti ripidi che penalizzano severamente l'essere sicuri ma errati.

Term

Un valore scalare che quantifica la discrepanza tra l'etichetta reale e la probabilità prevista per un singolo punto dati.

Un valore più alto indica una predizione peggiore, il che significa che il modello è stato più 'sbagliato' o meno 'sicuro della risposta corretta'.

Term

L'etichetta di classe binaria effettiva e corretta (0 o 1) per i dati in input.

Questo è il valore target che il modello sta cercando di apprendere e prevedere.

Term

La probabilità stimata dal modello che l'etichetta reale 'y' sia 1.

Rappresenta il livello di confidenza del modello per la classe positiva.

Term

Il logaritmo naturale della probabilità prevista 'p'.

Penalizza il modello più pesantemente man mano che la sua probabilità prevista 'p' per la classe vera si avvicina a 0 (cioè, previsione errata e sicura).

Term

Il logaritmo naturale della probabilità che l'etichetta vera 'y' sia 0 (cioè, 1-p).

Penalizza il modello più pesantemente man mano che la sua probabilità prevista 'p' per la classe vera si avvicina a 1 quando la classe vera è 0 (cioè, previsione errata e sicura).

Signs and relationships

-: Il logaritmo naturale di una probabilità (un valore tra 0 e 1) è sempre negativo o zero. Per garantire che la funzione di perdita 'L' sia un valore non negativo che possa essere minimizzato verso zero, l'intera espressione viene moltiplicata

Free study cues

Insight

Canonical usage

Uso canonico: This equation calculates a dimensionless loss value, representing the divergence between a true binary label and a predicted probability.

Dimension note

Nota adimensionale: All variables in the Binary Cross-Entropy formula (true label 'y', predicted probability 'p', and the resulting loss 'L') are dimensionless quantities.

One free problem

Practice Problem

Un modello di machine learning identifica una transazione come fraudolenta (y = 1). La probabilità prevista di frode dal modello è 0,85. Calcola la perdita di entropia incrociata binaria per questa previsione specifica.

Hint: Quando y = 1, la formula si semplifica in L = -ln(p).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Nel contesto di Addestramento di un classificatore di spam con output probabilistico, Entropia Incrociata Binaria serve a trasformare le misure in un valore interpretabile. Il risultato è importante perché aiuta a valutare il comportamento del modello, il costo dell'algoritmo o la qualità della previsione prima di usare il risultato.

Study smarter

Tips

Assicurati che i valori predetti p rimangano entro (0, 1) per evitare logaritmi naturali indefiniti a 0 o 1.
La perdita è 0 solo se la previsione corrisponde perfettamente all'etichetta.
Per bersagli multiclasse, utilizza invece la variante dell'Entropia Incrociata Categoriale.

Avoid these traps

Common Mistakes

Utilizzare direttamente p=0 o p=1.
Dimenticare il termine (1-y).

Keep going

Related Formulas

Common questions

Frequently Asked Questions

L'entropia incrociata binaria misura quanto bene le probabilità predette \hat{y} corrispondono alle etichette binarie reali y, penalizzando pesantemente le previsioni errate sicure.

Questa equazione è la funzione di perdita standard per problemi di classificazione binaria in cui l'output è una singola probabilità compresa tra 0 e 1. È più efficace se abbinata a una funzione di attivazione sigmoide nello strato finale di una rete neurale.

Fornisce una superficie liscia e convessa per l'ottimizzazione, consentendo alla discesa del gradiente di aggiornare efficacemente i pesi del modello. Penalizzando fortemente le previsioni sicure ma errate, costringe il modello a imparare confini più distinti tra le classi.

Utilizzare direttamente p=0 o p=1. Dimenticare il termine (1-y).

Nel contesto di Addestramento di un classificatore di spam con output probabilistico, Entropia Incrociata Binaria serve a trasformare le misure in un valore interpretabile. Il risultato è importante perché aiuta a valutare il comportamento del modello, il costo dell'algoritmo o la qualità della previsione prima di usare il risultato.

Assicurati che i valori predetti p rimangano entro (0, 1) per evitare logaritmi naturali indefiniti a 0 o 1. La perdita è 0 solo se la previsione corrisponde perfettamente all'etichetta. Per bersagli multiclasse, utilizza invece la variante dell'Entropia Incrociata Categoriale.

References

Sources

Wikipedia: Cross-entropy
Goodfellow, I., Bengio, Y., Courville, A. (2016). Deep Learning. MIT Press.
Deep Learning (Ian Goodfellow, Yoshua Bengio, and Aaron Courville)
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (Chapter 6, Section 6.2.2.2)
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. (Chapter 4, Section 4.3.4)
Standard curriculum — Machine Learning (Classification Losses)

Overview

Variables

Derivation

Scrivere la perdita per un singolo esempio:

Media su N esempi:

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Logistic Function

Frequently Asked Questions

Sources