Perte par entropie croisée binaire

Q: What are common mistakes with the Perte par entropie croisée binaire formula?

Utiliser un logarithme en base 10 (utiliser le logarithme naturel). p=0 ou p=1 exactement (provoque l'infini).

Q: What is a real-world example of the Perte par entropie croisée binaire formula?

Dans le contexte de Entraîner un classificateur chat/chien, Perte par entropie croisée binaire sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.

Q: What are some study tips for the Perte par entropie croisée binaire formula?

Évitez des probabilités d'entrée exactement égales à 0 ou 1 pour prévenir l'instabilité numérique ou les logarithmes naturels indéfinis. La valeur de la perte sera nulle uniquement si la probabilité prédite correspond parfaitement à l'étiquette cible. Dans les scénarios multiclasse, utilisez l'entropie croisée catégorielle plutôt que cette variante binaire.

Core idea

Overview

La perte par entropie croisée binaire, ou Log Loss, quantifie la différence entre deux distributions de probabilité : les étiquettes binaires réelles et les probabilités prédites. Elle applique une forte pénalité logarithmique aux prédictions confiantes mais incorrectes, guidant les algorithmes d'optimisation comme la descente de gradient pour améliorer la précision du modèle.

When to use: Cette fonction est spécifiquement conçue pour les tâches de classification binaire où la sortie est une seule valeur de probabilité entre 0 et 1. Elle est le plus souvent utilisée comme fonction objectif pour la régression logistique et les réseaux de neurones qui utilisent une activation sigmoïde dans la couche de sortie.

Why it matters: Contrairement à une simple erreur de classification, cette fonction de perte est dérivable, ce qui est essentiel pour la rétropropagation en apprentissage profond. Elle garantit que le modèle est pénalisé plus sévèrement lorsqu'il a « tort avec assurance » que lorsqu'il a « tort avec incertitude », ce qui conduit à des prédictions probabilistes plus robustes.

Symbols

Variables

y = True Label (0/1), p = Predicted Prob, L = Loss

y

True Label (0/1)

Variable

p

Predicted Prob

Variable

L

Loss

Variable

Walkthrough

Derivation

Dérivation : Entropie Croisée Binaire (Log Loss)

Dérive la perte d'entropie croisée binaire comme la log-vraisemblance négative pour des données étiquetées Bernoulli indépendantes.

Les cibles sont des étiquettes binaires : $y_{i}$ $\in$ \{0,1\}.
Les observations sont indépendantes (i.i.d. pour la factorisation de la vraisemblance).
Les sorties du modèle satisfont 0 < $\overset{y}{^}$ _i < 1 (probabilités).

1

Écrire la Vraisemblance de Bernoulli :

Si $y_{i}$ =1 le terme contribue $\overset{y}{^}$ _i ; si $y_{i}$ =0 il contribue (1- $\overset{y}{^}$ _i). L'indépendance nous permet de multiplier sur i.

L = i = 1 \prod N \overset{y}{^}_{i}^{y_{i}} (1 - \overset{y}{^}_{i})^{1 - y_{i}}

2

Prendre la Log-Vraisemblance :

Le logarithme transforme les produits en sommes et facilite l'optimisation.

ln L = i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

3

Convertir en un Objectif de Minimisation :

Minimiser la log-vraisemblance moyenne négative est équivalent à maximiser la vraisemblance ; c'est l'entropie croisée binaire.

J = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Result

J = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Source: Standard curriculum — Machine Learning

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Imaginez un paysage de pénalité courbe où la 'profondeur' de la courbe représente la perte. Le paysage est plat (perte nulle) lorsque les prédictions correspondent parfaitement aux vraies étiquettes, mais il descend abruptement dans de profondes vallées (perte élevée

Term

La valeur de perte calculée pour une seule prédiction.

Une perte plus élevée indique une plus grande divergence entre la probabilité prédite par le modèle et le résultat réel, signalant un besoin pour le modèle d'ajuster ses paramètres.

Term

L'étiquette binaire vraie pour l'instance (0 pour la classe négative, 1 pour la classe positive).

Représente la vérité terrain que le modèle vise à prédire correctement.

Term

La probabilité prédite par le modèle que l'étiquette vraie soit 1 (la classe positive).

Reflète la confiance du modèle dans le résultat positif, allant de 0 (certainement négatif) à 1 (certainement positif).

Signs and relationships

-: Le logarithme naturel d'une probabilité (une valeur entre 0 et 1) est toujours négatif ou nul. Le signe négatif principal inverse cette valeur, garantissant que la fonction de perte est non négative et peut être minimisée pendant
ln(): La fonction logarithmique impose une lourde pénalité lorsque le modèle fait une prédiction confiante mais incorrecte. Par exemple, si l'étiquette vraie 'y' est 1 mais 'p' est très proche de 0, 'ln(p)' devient un grand nombre négatif

Free study cues

Insight

Canonical usage

La perte d'entropie croisée binaire est une quantité sans dimension qui quantifie l'erreur entre les probabilités prédites et les étiquettes binaires réelles dans les tâches de classification.

Dimension note

La perte d'entropie croisée binaire est intrinsèquement sans dimension car elle opère sur des probabilités et des étiquettes binaires, qui sont des quantités sans dimension.

Ballpark figures

Quantity:

One free problem

Practice Problem

Un modèle de diagnostic médical prédit une probabilité de 0.85 qu'un patient ait une affection spécifique. Si le patient a effectivement cette affection (y=1), calculez la perte par entropie croisée binaire.

Hint: Puisque y=1, la formule se simplifie en L = -ln(p).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Dans le contexte de Entraîner un classificateur chat/chien, Perte par entropie croisée binaire sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.

Study smarter

Tips

Évitez des probabilités d'entrée exactement égales à 0 ou 1 pour prévenir l'instabilité numérique ou les logarithmes naturels indéfinis.
La valeur de la perte sera nulle uniquement si la probabilité prédite correspond parfaitement à l'étiquette cible.
Dans les scénarios multiclasse, utilisez l'entropie croisée catégorielle plutôt que cette variante binaire.

Avoid these traps

Common Mistakes

Utiliser un logarithme en base 10 (utiliser le logarithme naturel).
p=0 ou p=1 exactement (provoque l'infini).

Keep going

Related Formulas

Common questions

Frequently Asked Questions

Dérive la perte d'entropie croisée binaire comme la log-vraisemblance négative pour des données étiquetées Bernoulli indépendantes.

Cette fonction est spécifiquement conçue pour les tâches de classification binaire où la sortie est une seule valeur de probabilité entre 0 et 1. Elle est le plus souvent utilisée comme fonction objectif pour la régression logistique et les réseaux de neurones qui utilisent une activation sigmoïde dans la couche de sortie.

Contrairement à une simple erreur de classification, cette fonction de perte est dérivable, ce qui est essentiel pour la rétropropagation en apprentissage profond. Elle garantit que le modèle est pénalisé plus sévèrement lorsqu'il a « tort avec assurance » que lorsqu'il a « tort avec incertitude », ce qui conduit à des prédictions probabilistes plus robustes.

Utiliser un logarithme en base 10 (utiliser le logarithme naturel). p=0 ou p=1 exactement (provoque l'infini).

Dans le contexte de Entraîner un classificateur chat/chien, Perte par entropie croisée binaire sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.

Évitez des probabilités d'entrée exactement égales à 0 ou 1 pour prévenir l'instabilité numérique ou les logarithmes naturels indéfinis. La valeur de la perte sera nulle uniquement si la probabilité prédite correspond parfaitement à l'étiquette cible. Dans les scénarios multiclasse, utilisez l'entropie croisée catégorielle plutôt que cette variante binaire.

References

Sources

Wikipedia: Cross-entropy
Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
Deep Learning (Goodfellow, Bengio, Courville)
Pattern Recognition and Machine Learning (Bishop)
Goodfellow, Bengio, and Courville Deep Learning
Bishop Pattern Recognition and Machine Learning
Standard curriculum — Machine Learning

Overview

Variables

Derivation

Écrire la Vraisemblance de Bernoulli :

Prendre la Log-Vraisemblance :

Convertir en un Objectif de Minimisation :

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Binary Cross-Entropy

Cross-Entropy (Bernoulli)

Logistic Function

Frequently Asked Questions

Sources