Data & ComputingApprendimento AutomaticoA-Level
CambridgeAQAAPOntarioNSWCBSEGCE O-LevelMoE

Entropia Incrociata Binaria

Funzione di perdita per la classificazione binaria.

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

L'entropia incrociata binaria misura la divergenza tra due distribuzioni di probabilità, tipicamente le etichette vere e le probabilità predette in un compito di classificazione binaria. Calcola un valore di perdita che penalizza le previsioni esponenzialmente man mano che divergono dal valore della classe effettiva.

When to use: Questa equazione è la funzione di perdita standard per problemi di classificazione binaria in cui l'output è una singola probabilità compresa tra 0 e 1. È più efficace se abbinata a una funzione di attivazione sigmoide nello strato finale di una rete neurale.

Why it matters: Fornisce una superficie liscia e convessa per l'ottimizzazione, consentendo alla discesa del gradiente di aggiornare efficacemente i pesi del modello. Penalizzando fortemente le previsioni sicure ma errate, costringe il modello a imparare confini più distinti tra le classi.

Symbols

Variables

L = Loss, y = Actual Label (0/1), p = Predicted Prob

Loss
Variable
Actual Label (0/1)
Variable
Predicted Prob
Variable

Walkthrough

Derivation

Formula: Entropia Incrociata Binaria (Log Loss)

L'entropia incrociata binaria misura quanto bene le probabilità predette corrispondono alle etichette binarie reali y, penalizzando pesantemente le previsioni errate sicure.

  • Le etichette binarie y\in\{0,1\}.
  • Le previsioni sono probabilità in (0,1), comunemente da una sigmoide.
  • I logaritmi sono logaritmi naturali a meno che non sia specificato diversamente (la scelta cambia solo la scala).
1

Scrivere la perdita per un singolo esempio:

Se y=1, conta solo -(); se y=0, conta solo -(1-).

2

Media su N esempi:

La perdita del set di dati è la media delle perdite individuali, fornendo un singolo numero da minimizzare durante l'allenamento.

Note: In pratica, le probabilità vengono ritagliate lontano da 0 e 1 per evitare (0).

Result

Source: Standard curriculum — Machine Learning (Classification Losses)

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Un paesaggio in cui il modello mira a trovare il punto più basso, che rappresenta la minima divergenza tra le probabilità previste e le etichette delle classi reali, con gradienti ripidi che penalizzano severamente l'essere sicuri ma errati.

Term
Un valore scalare che quantifica la discrepanza tra l'etichetta reale e la probabilità prevista per un singolo punto dati.
Un valore più alto indica una predizione peggiore, il che significa che il modello è stato più 'sbagliato' o meno 'sicuro della risposta corretta'.
Term
L'etichetta di classe binaria effettiva e corretta (0 o 1) per i dati in input.
Questo è il valore target che il modello sta cercando di apprendere e prevedere.
Term
La probabilità stimata dal modello che l'etichetta reale 'y' sia 1.
Rappresenta il livello di confidenza del modello per la classe positiva.
Term
Il logaritmo naturale della probabilità prevista 'p'.
Penalizza il modello più pesantemente man mano che la sua probabilità prevista 'p' per la classe vera si avvicina a 0 (cioè, previsione errata e sicura).
Term
Il logaritmo naturale della probabilità che l'etichetta vera 'y' sia 0 (cioè, 1-p).
Penalizza il modello più pesantemente man mano che la sua probabilità prevista 'p' per la classe vera si avvicina a 1 quando la classe vera è 0 (cioè, previsione errata e sicura).

Signs and relationships

  • -: Il logaritmo naturale di una probabilità (un valore tra 0 e 1) è sempre negativo o zero. Per garantire che la funzione di perdita 'L' sia un valore non negativo che possa essere minimizzato verso zero, l'intera espressione viene moltiplicata

Free study cues

Insight

Canonical usage

Uso canonico: This equation calculates a dimensionless loss value, representing the divergence between a true binary label and a predicted probability.

Dimension note

Nota adimensionale: All variables in the Binary Cross-Entropy formula (true label 'y', predicted probability 'p', and the resulting loss 'L') are dimensionless quantities.

One free problem

Practice Problem

Un modello di machine learning identifica una transazione come fraudolenta (y = 1). La probabilità prevista di frode dal modello è 0,85. Calcola la perdita di entropia incrociata binaria per questa previsione specifica.

Hint: Quando y = 1, la formula si semplifica in L = -ln(p).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Nel contesto di Addestramento di un classificatore di spam con output probabilistico, Entropia Incrociata Binaria serve a trasformare le misure in un valore interpretabile. Il risultato è importante perché aiuta a valutare il comportamento del modello, il costo dell'algoritmo o la qualità della previsione prima di usare il risultato.

Study smarter

Tips

  • Assicurati che i valori predetti p rimangano entro (0, 1) per evitare logaritmi naturali indefiniti a 0 o 1.
  • La perdita è 0 solo se la previsione corrisponde perfettamente all'etichetta.
  • Per bersagli multiclasse, utilizza invece la variante dell'Entropia Incrociata Categoriale.

Avoid these traps

Common Mistakes

  • Utilizzare direttamente p=0 o p=1.
  • Dimenticare il termine (1-y).

Common questions

Frequently Asked Questions

L'entropia incrociata binaria misura quanto bene le probabilità predette \hat{y} corrispondono alle etichette binarie reali y, penalizzando pesantemente le previsioni errate sicure.

Questa equazione è la funzione di perdita standard per problemi di classificazione binaria in cui l'output è una singola probabilità compresa tra 0 e 1. È più efficace se abbinata a una funzione di attivazione sigmoide nello strato finale di una rete neurale.

Fornisce una superficie liscia e convessa per l'ottimizzazione, consentendo alla discesa del gradiente di aggiornare efficacemente i pesi del modello. Penalizzando fortemente le previsioni sicure ma errate, costringe il modello a imparare confini più distinti tra le classi.

Utilizzare direttamente p=0 o p=1. Dimenticare il termine (1-y).

Nel contesto di Addestramento di un classificatore di spam con output probabilistico, Entropia Incrociata Binaria serve a trasformare le misure in un valore interpretabile. Il risultato è importante perché aiuta a valutare il comportamento del modello, il costo dell'algoritmo o la qualità della previsione prima di usare il risultato.

Assicurati che i valori predetti p rimangano entro (0, 1) per evitare logaritmi naturali indefiniti a 0 o 1. La perdita è 0 solo se la previsione corrisponde perfettamente all'etichetta. Per bersagli multiclasse, utilizza invece la variante dell'Entropia Incrociata Categoriale.

References

Sources

  1. Wikipedia: Cross-entropy
  2. Goodfellow, I., Bengio, Y., Courville, A. (2016). Deep Learning. MIT Press.
  3. Deep Learning (Ian Goodfellow, Yoshua Bengio, and Aaron Courville)
  4. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (Chapter 6, Section 6.2.2.2)
  5. Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. (Chapter 4, Section 4.3.4)
  6. Standard curriculum — Machine Learning (Classification Losses)