Perte par entropie croisée binaire
Fonction de perte pour la classification.
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
La perte par entropie croisée binaire, ou Log Loss, quantifie la différence entre deux distributions de probabilité : les étiquettes binaires réelles et les probabilités prédites. Elle applique une forte pénalité logarithmique aux prédictions confiantes mais incorrectes, guidant les algorithmes d'optimisation comme la descente de gradient pour améliorer la précision du modèle.
When to use: Cette fonction est spécifiquement conçue pour les tâches de classification binaire où la sortie est une seule valeur de probabilité entre 0 et 1. Elle est le plus souvent utilisée comme fonction objectif pour la régression logistique et les réseaux de neurones qui utilisent une activation sigmoïde dans la couche de sortie.
Why it matters: Contrairement à une simple erreur de classification, cette fonction de perte est dérivable, ce qui est essentiel pour la rétropropagation en apprentissage profond. Elle garantit que le modèle est pénalisé plus sévèrement lorsqu'il a « tort avec assurance » que lorsqu'il a « tort avec incertitude », ce qui conduit à des prédictions probabilistes plus robustes.
Symbols
Variables
y = True Label (0/1), p = Predicted Prob, L = Loss
Walkthrough
Derivation
Dérivation : Entropie Croisée Binaire (Log Loss)
Dérive la perte d'entropie croisée binaire comme la log-vraisemblance négative pour des données étiquetées Bernoulli indépendantes.
- Les cibles sont des étiquettes binaires : \{0,1\}.
- Les observations sont indépendantes (i.i.d. pour la factorisation de la vraisemblance).
- Les sorties du modèle satisfont 0 < _i < 1 (probabilités).
Écrire la Vraisemblance de Bernoulli :
Si =1 le terme contribue _i ; si =0 il contribue (1-_i). L'indépendance nous permet de multiplier sur i.
Prendre la Log-Vraisemblance :
Le logarithme transforme les produits en sommes et facilite l'optimisation.
Convertir en un Objectif de Minimisation :
Minimiser la log-vraisemblance moyenne négative est équivalent à maximiser la vraisemblance ; c'est l'entropie croisée binaire.
Result
Source: Standard curriculum — Machine Learning
Visual intuition
Graph
Graph type: logarithmic
Why it behaves this way
Intuition
Imaginez un paysage de pénalité courbe où la 'profondeur' de la courbe représente la perte. Le paysage est plat (perte nulle) lorsque les prédictions correspondent parfaitement aux vraies étiquettes, mais il descend abruptement dans de profondes vallées (perte élevée
Signs and relationships
- -: Le logarithme naturel d'une probabilité (une valeur entre 0 et 1) est toujours négatif ou nul. Le signe négatif principal inverse cette valeur, garantissant que la fonction de perte est non négative et peut être minimisée pendant
- ln(): La fonction logarithmique impose une lourde pénalité lorsque le modèle fait une prédiction confiante mais incorrecte. Par exemple, si l'étiquette vraie 'y' est 1 mais 'p' est très proche de 0, 'ln(p)' devient un grand nombre négatif
Free study cues
Insight
Canonical usage
La perte d'entropie croisée binaire est une quantité sans dimension qui quantifie l'erreur entre les probabilités prédites et les étiquettes binaires réelles dans les tâches de classification.
Dimension note
La perte d'entropie croisée binaire est intrinsèquement sans dimension car elle opère sur des probabilités et des étiquettes binaires, qui sont des quantités sans dimension.
Ballpark figures
- Quantity:
One free problem
Practice Problem
Un modèle de diagnostic médical prédit une probabilité de 0.85 qu'un patient ait une affection spécifique. Si le patient a effectivement cette affection (y=1), calculez la perte par entropie croisée binaire.
Hint: Puisque y=1, la formule se simplifie en L = -ln(p).
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
Dans le contexte de Entraîner un classificateur chat/chien, Perte par entropie croisée binaire sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.
Study smarter
Tips
- Évitez des probabilités d'entrée exactement égales à 0 ou 1 pour prévenir l'instabilité numérique ou les logarithmes naturels indéfinis.
- La valeur de la perte sera nulle uniquement si la probabilité prédite correspond parfaitement à l'étiquette cible.
- Dans les scénarios multiclasse, utilisez l'entropie croisée catégorielle plutôt que cette variante binaire.
Avoid these traps
Common Mistakes
- Utiliser un logarithme en base 10 (utiliser le logarithme naturel).
- p=0 ou p=1 exactement (provoque l'infini).
Common questions
Frequently Asked Questions
Dérive la perte d'entropie croisée binaire comme la log-vraisemblance négative pour des données étiquetées Bernoulli indépendantes.
Cette fonction est spécifiquement conçue pour les tâches de classification binaire où la sortie est une seule valeur de probabilité entre 0 et 1. Elle est le plus souvent utilisée comme fonction objectif pour la régression logistique et les réseaux de neurones qui utilisent une activation sigmoïde dans la couche de sortie.
Contrairement à une simple erreur de classification, cette fonction de perte est dérivable, ce qui est essentiel pour la rétropropagation en apprentissage profond. Elle garantit que le modèle est pénalisé plus sévèrement lorsqu'il a « tort avec assurance » que lorsqu'il a « tort avec incertitude », ce qui conduit à des prédictions probabilistes plus robustes.
Utiliser un logarithme en base 10 (utiliser le logarithme naturel). p=0 ou p=1 exactement (provoque l'infini).
Dans le contexte de Entraîner un classificateur chat/chien, Perte par entropie croisée binaire sert à transformer les mesures en une valeur interprétable. Le résultat est important parce qu'il aide à évaluer le comportement du modèle, le coût de l'algorithme ou la qualité de la prédiction avant d'utiliser le résultat.
Évitez des probabilités d'entrée exactement égales à 0 ou 1 pour prévenir l'instabilité numérique ou les logarithmes naturels indéfinis. La valeur de la perte sera nulle uniquement si la probabilité prédite correspond parfaitement à l'étiquette cible. Dans les scénarios multiclasse, utilisez l'entropie croisée catégorielle plutôt que cette variante binaire.
References
Sources
- Wikipedia: Cross-entropy
- Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
- Deep Learning (Goodfellow, Bengio, Courville)
- Pattern Recognition and Machine Learning (Bishop)
- Goodfellow, Bengio, and Courville Deep Learning
- Bishop Pattern Recognition and Machine Learning
- Standard curriculum — Machine Learning