Divergencia KL (Bernoulli)
D_KL(p||q) para distribuciones de Bernoulli.
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
La divergencia KL de Bernoulli mide la entropía relativa entre dos distribuciones de Bernoulli, cuantificando la información perdida cuando la distribución q se usa para aproximar la distribución p. Es una métrica no simétrica que caracteriza la distancia estadística entre dos resultados binarios en un espacio de probabilidad compartido.
When to use: Esta ecuación es esencial al evaluar el rendimiento de clasificadores binarios o al comparar un modelo teórico con frecuencias binarias observadas. Se aplica frecuentemente en el aprendizaje automático como un componente de funciones de pérdida como la Entropía Cruzada Binaria y en el contexto de la selección de modelos basada en la teoría de la información.
Why it matters: Proporciona una forma rigurosa de medir la 'sorpresa' o el costo adicional incurrido al asumir un conjunto de probabilidades cuando la realidad es diferente. En la práctica, minimizar esta divergencia optimiza la transmisión de datos y asegura que los modelos predictivos estén lo más cerca posible del proceso real de generación de datos.
Symbols
Variables
= KL Divergence, p = True Probability, q = Model Probability
Walkthrough
Derivation
Derivacion de Divergencia KL (Bernoulli)
La divergencia KL mide la falta de coincidencia entre la probabilidad verdadera p y la probabilidad del modelo q.
- Variable binaria X∈{0,1}.
- Distribución verdadera: P(X=1)=p.
- Distribución del modelo: Q(X=1)=q.
Comenzar desde la definición de divergencia KL:
La KL es una razón logarítmica esperada de probabilidades.
Escribir las probabilidades para X=1 y X=0:
Las distribuciones de Bernoulli se determinan por sus probabilidades de éxito.
Expandir la esperanza:
Esta es la forma cerrada estándar para la divergencia KL de Bernoulli.
Result
Visual intuition
Graph
Graph type: quadratic
Why it behaves this way
Intuition
Imagina dos gráficos de barras distintos, cada uno representando una distribución de Bernoulli con dos barras (éxito y fracaso). La divergencia KL cuantifica el 'espacio extra' o 'distancia' requerido para describir el primer gráfico de barras utilizando
Signs and relationships
- \ln: La función logarítmica transforma las razones de probabilidad en unidades de información (nats, para logaritmo natural). Su propiedad asegura que los términos `p\ln(p/q)` y `(1-p)((1-p)/(1-q))` siempre sean no negativos
- p: Las probabilidades verdaderas 'p' y '(1-p)' actúan como factores de ponderación. Aseguran que la discrepancia de información para cada resultado (éxito o fracaso)
- +: Los dos términos se suman para tener en cuenta la discrepancia total de información esperada entre ambos resultados posibles (éxito y fracaso)
Free study cues
Insight
Canonical usage
La divergencia KL es una cantidad adimensional, a menudo expresada en "nats" o "bits" según la base del logaritmo utilizada, pero fundamentalmente representa una medida sin unidades de la información.
Dimension note
La divergencia KL es inherentemente adimensional, ya que se calcula a partir de probabilidades, que a su vez son razones adimensionales. Aunque a menudo se usan "nats" o "bits" para indicar la unidad de información, estas no son unidades físicas.
One free problem
Practice Problem
Se sabe que una moneda tiene una probabilidad real de obtener cara de p = 0.5. Si un investigador modela esta moneda con una probabilidad estimada q = 0.2, calcule la Divergencia KL resultante en nats.
Hint: Sustituya los valores en la fórmula usando logaritmos naturales tanto para los términos p/q como para (1-p)/(1-q).
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
En el caso de quantifying how much a model's predicted probability differs from reality, KL Divergence (Bernoulli) se utiliza para calcular KL Divergence from True Probability and Model Probability. El resultado importa porque ayuda a estimar la probabilidad y formular un juicio de riesgo o decisión en lugar de tratar el número como certeza.
Study smarter
Tips
- Asegúrate de que los valores de p y q permanezcan estrictamente entre 0 y 1 para evitar logaritmos naturales de cero o infinito.
- Recuerda que D(p||q) no es igual a D(q||p); el orden representa la dirección de la verdad p al modelo q.
- Una divergencia de 0 siempre implica que las dos distribuciones son perfectamente idénticas.
Avoid these traps
Common Mistakes
- Intercambiar p y q (cambia el valor).
- Asumir que KL es una métrica de distancia (no es simétrica).
Common questions
Frequently Asked Questions
La divergencia KL mide la falta de coincidencia entre la probabilidad verdadera p y la probabilidad del modelo q.
Esta ecuación es esencial al evaluar el rendimiento de clasificadores binarios o al comparar un modelo teórico con frecuencias binarias observadas. Se aplica frecuentemente en el aprendizaje automático como un componente de funciones de pérdida como la Entropía Cruzada Binaria y en el contexto de la selección de modelos basada en la teoría de la información.
Proporciona una forma rigurosa de medir la 'sorpresa' o el costo adicional incurrido al asumir un conjunto de probabilidades cuando la realidad es diferente. En la práctica, minimizar esta divergencia optimiza la transmisión de datos y asegura que los modelos predictivos estén lo más cerca posible del proceso real de generación de datos.
Intercambiar p y q (cambia el valor). Asumir que KL es una métrica de distancia (no es simétrica).
En el caso de quantifying how much a model's predicted probability differs from reality, KL Divergence (Bernoulli) se utiliza para calcular KL Divergence from True Probability and Model Probability. El resultado importa porque ayuda a estimar la probabilidad y formular un juicio de riesgo o decisión en lugar de tratar el número como certeza.
Asegúrate de que los valores de p y q permanezcan estrictamente entre 0 y 1 para evitar logaritmos naturales de cero o infinito. Recuerda que D(p||q) no es igual a D(q||p); el orden representa la dirección de la verdad p al modelo q. Una divergencia de 0 siempre implica que las dos distribuciones son perfectamente idénticas.
References
Sources
- Elements of Information Theory by Thomas M. Cover and Joy A. Thomas
- Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
- Wikipedia: Kullback-Leibler divergence
- Cover and Thomas, Elements of Information Theory, 2nd ed.
- Wikipedia: Bernoulli distribution
- IUPAC Gold Book: relative entropy
- Cover and Thomas Elements of Information Theory