Divergência KL (Bernoulli)
D_KL(p||q) para distribuições de Bernoulli.
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
A divergência KL de Bernoulli mede a entropia relativa entre duas distribuições de Bernoulli, quantificando a informação perdida quando a distribuição q é usada para aproximar a distribuição p. É uma métrica não simétrica que caracteriza a distância estatística entre dois resultados binários em um espaço de probabilidade compartilhado.
When to use: Esta equação é essencial ao avaliar o desempenho de classificadores binários ou ao comparar um modelo teórico com frequências binárias observadas. É frequentemente aplicada em aprendizado de máquina como um componente de funções de perda como a Entropia Cruzada Binária e no contexto de seleção de modelos informacional-teórica.
Why it matters: Fornece uma maneira rigorosa de medir a 'surpresa' ou o custo extra incorrido ao assumir um conjunto de probabilidades quando a realidade é diferente. Na prática, minimizar essa divergência otimiza a transmissão de dados e garante que os modelos preditivos estejam o mais próximo possível do processo de geração de dados verdadeiro.
Symbols
Variables
= KL Divergence, p = True Probability, q = Model Probability
Walkthrough
Derivation
Derivação da Divergência KL para Variáveis de Bernoulli
A divergência KL mede a incompatibilidade entre a probabilidade verdadeira p e a probabilidade do modelo q.
- Variável binária X∈{0,1}.
- Distribuição verdadeira: P(X=1)=p.
- Distribuição do modelo: Q(X=1)=q.
Começar da definição de divergência KL:
KL é uma razão logarítmica esperada de probabilidades.
Escrever as probabilidades para X=1 e X=0:
As distribuições de Bernoulli são determinadas por suas probabilidades de sucesso.
Expandir a expectativa:
Esta é a forma fechada padrão para a divergência KL de Bernoulli.
Result
Visual intuition
Graph
Graph type: quadratic
Why it behaves this way
Intuition
Imagine dois gráficos de barras distintos, cada um representando uma distribuição de Bernoulli com duas barras (sucesso e fracasso). A divergência KL quantifica o 'espaço extra' ou 'distância' necessária para descrever o primeiro gráfico de barras usando
Signs and relationships
- \ln: A função logarítmica transforma razões de probabilidade em unidades de informação (nats, para logaritmo natural). Sua propriedade garante que os termos `p\ln(p/q)` e `(1-p)((1-p)/(1-q))` são sempre não negativos
- p: As probabilidades reais 'p' e '(1-p)' atuam como fatores de ponderação. Elas garantem que a discrepância de informação para cada resultado (sucesso ou falha)
- +: Os dois termos são somados para contabilizar a discrepância total esperada de informação entre os dois resultados possíveis (sucesso e falha)
Free study cues
Insight
Canonical usage
A Divergência KL é uma quantidade adimensional, frequentemente expressa em nats ou bits dependendo da base do logaritmo usada, mas representa fundamentalmente uma medida adimensional de informação.
Dimension note
A divergência KL é inerentemente adimensional, pois é calculada a partir de probabilidades, que por si só são razões adimensionais. Embora nats ou bits sejam frequentemente usados para denotar a unidade de informação, esses não são unidades físicas.
One free problem
Practice Problem
Sabe-se que uma moeda tem uma probabilidade real de sair cara de p = 0.5. Se um pesquisador modelar essa moeda com uma probabilidade estimada q = 0.2, calcule a Divergência KL resultante em nats.
Hint: Substitua os valores na fórmula usando logaritmos naturais para os termos p/q e (1-p)/(1-q).
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
No caso de quantifying how much a model's predicted probability differs from reality, KL Divergence (Bernoulli) é utilizado para calcular KL Divergence from True Probability and Model Probability. O resultado importa porque ajuda a estimar a probabilidade e formular um julgamento de risco ou decisão em vez de tratar o número como certeza.
Study smarter
Tips
- Certifique-se de que os valores de p e q permaneçam estritamente entre 0 e 1 para evitar logaritmos naturais de zero ou infinito.
- Lembre-se que D(p||q) não é igual a D(q||p); a ordem representa a direção da verdade p para o modelo q.
- Uma divergência de 0 sempre implica que as duas distribuições são perfeitamente idênticas.
Avoid these traps
Common Mistakes
- Trocar p e q (altera o valor).
- Assumir que KL é uma métrica de distância (não é simétrica).
Common questions
Frequently Asked Questions
A divergência KL mede a incompatibilidade entre a probabilidade verdadeira p e a probabilidade do modelo q.
Esta equação é essencial ao avaliar o desempenho de classificadores binários ou ao comparar um modelo teórico com frequências binárias observadas. É frequentemente aplicada em aprendizado de máquina como um componente de funções de perda como a Entropia Cruzada Binária e no contexto de seleção de modelos informacional-teórica.
Fornece uma maneira rigorosa de medir a 'surpresa' ou o custo extra incorrido ao assumir um conjunto de probabilidades quando a realidade é diferente. Na prática, minimizar essa divergência otimiza a transmissão de dados e garante que os modelos preditivos estejam o mais próximo possível do processo de geração de dados verdadeiro.
Trocar p e q (altera o valor). Assumir que KL é uma métrica de distância (não é simétrica).
No caso de quantifying how much a model's predicted probability differs from reality, KL Divergence (Bernoulli) é utilizado para calcular KL Divergence from True Probability and Model Probability. O resultado importa porque ajuda a estimar a probabilidade e formular um julgamento de risco ou decisão em vez de tratar o número como certeza.
Certifique-se de que os valores de p e q permaneçam estritamente entre 0 e 1 para evitar logaritmos naturais de zero ou infinito. Lembre-se que D(p||q) não é igual a D(q||p); a ordem representa a direção da verdade p para o modelo q. Uma divergência de 0 sempre implica que as duas distribuições são perfeitamente idênticas.
References
Sources
- Elements of Information Theory by Thomas M. Cover and Joy A. Thomas
- Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
- Wikipedia: Kullback-Leibler divergence
- Cover and Thomas, Elements of Information Theory, 2nd ed.
- Wikipedia: Bernoulli distribution
- IUPAC Gold Book: relative entropy
- Cover and Thomas Elements of Information Theory