Entropía Cruzada (Bernoulli)

Core idea

Overview

La entropía cruzada para una distribución de Bernoulli cuantifica la divergencia entre la probabilidad binaria verdadera p y la probabilidad predicha q. Es la métrica estándar utilizada en clasificación binaria para penalizar a los modelos basándose en cuánto difiere su distribución predicha de la distribución objetivo real.

When to use: Aplicar esta ecuación al evaluar modelos de clasificación binaria donde los resultados son mutuamente excluyentes. Es la función de pérdida principal utilizada durante el entrenamiento de modelos de regresión logística y redes neuronales binarias.

Why it matters: Esta función es superior al error cuadrático medio para clasificación porque proporciona gradientes más fuertes cuando el modelo está erróneamente seguro. Esto resulta en una convergencia más rápida durante procesos de optimización como el descenso de gradiente.

Symbols

Variables

H(p,q) = Cross-Entropy, p = True Probability, q = Model Probability

H(p,q)

Cross-Entropy

nats

p

True Probability

Variable

q

Model Probability

Variable

Walkthrough

Derivation

Derivacion de Entropía Cruzada (Bernoulli)

La entropía cruzada es la log-probabilidad negativa esperada bajo un modelo q cuando los datos siguen la probabilidad verdadera p.

Variable binaria X∈{0,1}.
Distribución verdadera: P(X=1)=p.
Distribución del modelo: Q(X=1)=q.

1

Comenzar desde la definición de entropía cruzada:

La entropía cruzada es la log-verosimilitud negativa esperada bajo el modelo Q.

H (p, q) = - E_{X \sim p} [ln Q (X)]

2

Escribir la esperanza sobre X=1 y X=0:

Con probabilidad p observas 1 (log-verosimilitud ln q), de lo contrario 0 (log-verosimilitud ln(1−q)).

H (p, q) = - [p ln q + (1 - p) ln (1 - q)]

Result

H (p, q) = - [p ln q + (1 - p) ln (1 - q)]

Why it behaves this way

Intuition

Imagine dos gráficos de barras: uno que represente las probabilidades reales 'p' y '1-p', y otro que represente las probabilidades predichas por el modelo 'q' y '1-q'.

Term

Una medida del número promedio de bits necesarios para codificar un evento de una distribución real 'p' cuando se utiliza un código optimizado para una distribución predicha 'q'.

Cuantifica cuán 'sorprendido' está un modelo por el resultado real, promediado sobre todos los resultados posibles, cuando sus predicciones son 'q' y las probabilidades reales son 'p'. Un valor más alto significa mayor divergencia o 'sorpresa'.

Term

La probabilidad real de la clase positiva (por ejemplo, la etiqueta real es 1).

Representa la probabilidad real y observada de que ocurra un evento.

Term

La probabilidad predicha de la clase positiva (por ejemplo, la salida del modelo para la etiqueta 1).

Representa la probabilidad estimada por el modelo de que ocurra un evento.

Term

El logaritmo de la probabilidad predicha de la clase positiva.

Este término contribuye a la pérdida cuando el resultado real es positivo (p=1). Penaliza fuertemente al modelo cuando predice una 'q' baja para un evento verdaderamente positivo, ya que ln(q) se vuelve muy negativo para 'q' pequeña.

Term

El logaritmo de la probabilidad predicha de la clase negativa.

Este término contribuye a la pérdida cuando el resultado real es negativo (p=0). Penaliza fuertemente al modelo cuando predice una 'q' alta (lo que significa un '1-q' bajo) para un evento verdaderamente negativo.

Signs and relationships

-: El logaritmo de una probabilidad (un valor entre 0 y 1) siempre es negativo o cero. El signo negativo inicial asegura que la pérdida de entropía cruzada sea un valor positivo, lo cual es convencional para las funciones de pérdida incluidas en el modelo.

Free study cues

Insight

Canonical usage

Esta ecuación calcula un valor adimensional, a menudo interpretado en "nats" cuando se usa el logaritmo natural, cuantificando la divergencia entre dos distribuciones de probabilidad.

Dimension note

La entropía cruzada es una medida adimensional del número promedio de nats (o bits, si se usa un logaritmo en base 2) necesarios para identificar un evento de una distribución real, dada una codificación optimizada para una distribución predicha

One free problem

Practice Problem

Un modelo de aprendizaje automático predice una probabilidad de 0.7 (q) de que una imagen contenga un gato. La imagen real es de hecho un gato (p = 1.0). Calcule la entropía cruzada binaria para esta predicción en nats.

Hint: Dado que p = 1, el término (1-p) se vuelve cero, lo que significa que solo necesita calcular -ln(q).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

En el caso de expected log-loss when a spam filter over/underestimates spam probability, Cross-Entropy (Bernoulli) se utiliza para calcular Cross-Entropy from True Probability and Model Probability. El resultado importa porque it helps evaluate model behaviour, algorithm cost, or prediction quality before relying on the output.

Study smarter

Tips

Asegurarse de que el valor predicho q esté estrictamente entre 0 y 1 para evitar operaciones logarítmicas indefinidas.
Notar que p usualmente representa la etiqueta de verdad fundamental y es típicamente 0 o 1.
Valores más bajos de entropía cruzada indican un modelo que está más alineado con la distribución de datos real.

Avoid these traps

Common Mistakes

Usar porcentajes en lugar de probabilidades (0.7 no 70).
Tomar el ln de 0 (q debe estar estrictamente entre 0 y 1).

Keep going

Related Formulas

Common questions

Frequently Asked Questions

La entropía cruzada es la log-probabilidad negativa esperada bajo un modelo q cuando los datos siguen la probabilidad verdadera p.

Aplicar esta ecuación al evaluar modelos de clasificación binaria donde los resultados son mutuamente excluyentes. Es la función de pérdida principal utilizada durante el entrenamiento de modelos de regresión logística y redes neuronales binarias.

Esta función es superior al error cuadrático medio para clasificación porque proporciona gradientes más fuertes cuando el modelo está erróneamente seguro. Esto resulta en una convergencia más rápida durante procesos de optimización como el descenso de gradiente.

Usar porcentajes en lugar de probabilidades (0.7 no 70). Tomar el ln de 0 (q debe estar estrictamente entre 0 y 1).

En el caso de expected log-loss when a spam filter over/underestimates spam probability, Cross-Entropy (Bernoulli) se utiliza para calcular Cross-Entropy from True Probability and Model Probability. El resultado importa porque it helps evaluate model behaviour, algorithm cost, or prediction quality before relying on the output.

Asegurarse de que el valor predicho q esté estrictamente entre 0 y 1 para evitar operaciones logarítmicas indefinidas. Notar que p usualmente representa la etiqueta de verdad fundamental y es típicamente 0 o 1. Valores más bajos de entropía cruzada indican un modelo que está más alineado con la distribución de datos real.

References

Sources

Wikipedia: Cross-entropy
Elements of Information Theory (2nd ed.) by Thomas M. Cover and Joy A. Thomas
Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
Elements of Information Theory (Cover and Thomas)
Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016.

Overview

Variables

Derivation

Comenzar desde la definición de entropía cruzada:

Escribir la esperanza sobre X=1 y X=0:

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Binary Cross-Entropy Loss

KL Divergence (Bernoulli)

Entropy (Shannon)

Frequently Asked Questions

Sources