Entropia Cruzada Binária

Core idea

Overview

A Entropia Cruzada Binária mede a divergência entre duas distribuições de probabilidade, tipicamente os rótulos verdadeiros e as probabilidades preditas em uma tarefa de classificação binária. Ela calcula um valor de perda que penaliza as previsões exponencialmente à medida que divergem do valor da classe real.

When to use: Esta equação é a função de perda padrão para problemas de classificação binária onde a saída é uma única probabilidade entre 0 e 1. É mais eficaz quando combinada com uma função de ativação sigmoide na camada final de uma rede neural.

Why it matters: Ela fornece uma superfície suave e convexa para otimização, permitindo que o gradiente descendente atualize efetivamente os pesos do modelo. Ao penalizar fortemente as previsões confiantes, mas incorretas, ela força o modelo a aprender limites mais distintos entre as classes.

Symbols

Variables

L = Loss, y = Actual Label (0/1), p = Predicted Prob

L

Loss

Variable

y

Actual Label (0/1)

Variable

p

Predicted Prob

Variable

Walkthrough

Derivation

Fórmula: Entropia Cruzada Binária (Perda Logarítmica)

A entropia cruzada binária mede quão bem as probabilidades previstas $\overset{y}{^}$ correspondem aos rótulos binários verdadeiros y, penalizando fortemente predições erradas confiantes.

Rótulos binários y\in\{0,1\}.
Previsões $\overset{y}{^}$ são probabilidades em (0,1), comumente de um sigmoide.
Logaritmos são logaritmos naturais, a menos que especificado de outra forma (a escolha apenas muda a escala).

1

Escrever a perda para um exemplo:

Se y=1, apenas - $ln$ ( $\overset{y}{^}$ ) importa; se y=0, apenas - $ln$ (1- $\overset{y}{^}$ ) importa.

L (y, \overset{y}{^}) = - [y ln (\overset{y}{^}) + (1 - y) ln (1 - \overset{y}{^})]

2

Média sobre N exemplos:

A perda do conjunto de dados é a média das perdas individuais, dando um único número a ser minimizado durante o treinamento.

J = \frac{1}{N} i = 1 \sum N L (y_{i}, \overset{y}{^}_{i}) = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Note: Na prática, as probabilidades são limitadas longe de 0 e 1 para evitar $ln$ (0).

Result

J = \frac{1}{N} i = 1 \sum N L (y_{i}, \overset{y}{^}_{i}) = - \frac{1}{N} i = 1 \sum N [y_{i} ln (\overset{y}{^}_{i}) + (1 - y_{i}) ln (1 - \overset{y}{^}_{i})]

Source: Standard curriculum — Machine Learning (Classification Losses)

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Uma paisagem onde o modelo visa encontrar o ponto mais baixo, representando a divergência mínima entre suas probabilidades previstas e os rótulos de classe verdadeiros, com gradientes íngremes que penalizam severamente a confiança incorreta

Term

Um valor escalar que quantifica a discrepância entre o rótulo verdadeiro e a probabilidade prevista para um único ponto de dados.

Um valor mais alto indica uma pior previsão, significando que o modelo estava mais 'errado' ou menos 'confiante na resposta correta'.

Term

O rótulo real e correto da classe binária (0 ou 1) para os dados de entrada.

Este é o valor alvo que o modelo está tentando aprender e prever.

Term

A probabilidade estimada pelo modelo de que o rótulo verdadeiro 'y' seja 1.

Representa o nível de confiança do modelo para a classe positiva.

Term

O logaritmo natural da probabilidade prevista 'p'.

Penaliza o modelo mais fortemente à medida que sua probabilidade prevista 'p' para a classe verdadeira se aproxima de 0 (ou seja, previsão errada e confiante).

Term

O logaritmo natural da probabilidade de que o rótulo verdadeiro 'y' seja 0 (isto é, 1-p).

Penaliza o modelo mais fortemente à medida que sua probabilidade prevista 'p' para a classe verdadeira se aproxima de 1 quando a classe verdadeira é 0 (ou seja, previsão errada confiante).

Signs and relationships

-: O logaritmo natural de uma probabilidade (um valor entre 0 e 1) é sempre negativo ou zero. Para garantir que a função de perda 'L' seja um valor não negativo que possa ser minimizado em direção a zero, toda a expressão é multiplicada

Free study cues

Insight

Canonical usage

Esta equação calcula um valor de perda adimensional, representando a divergência entre um rótulo binário verdadeiro e uma probabilidade prevista.

Dimension note

Todas as variáveis na fórmula de Entropia Cruzada Binária (rótulo verdadeiro 'y', probabilidade prevista 'p' e a perda resultante 'L') são grandezas adimensionais.

One free problem

Practice Problem

Um modelo de aprendizado de máquina identifica uma transação como fraudulenta (y = 1). A probabilidade predita de fraude pelo modelo é de 0,85. Calcule a perda de entropia cruzada binária para esta previsão específica.

Hint: Quando y = 1, a fórmula se simplifica para L = -ln(p).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

No caso de training a spam classifier with probabilistic output, Binary Cross-Entropy é utilizado para calcular Loss from Actual Label (0/1) and Predicted Prob. O resultado importa porque ajuda a avaliar a incerteza, a dispersão ou as evidências antes de tirar uma conclusão dos dados.

Study smarter

Tips

Certifique-se de que os valores preditos p permaneçam entre (0, 1) para evitar logaritmos naturais indefinidos em 0 ou 1.
A perda é 0 somente se a previsão corresponder perfeitamente ao rótulo.
Para alvos multi-classe, use a variante Entropia Cruzada Categórica.

Avoid these traps

Common Mistakes

Usar p=0 ou p=1 diretamente.
Esquecer o termo (1-y).

Keep going

Related Formulas

Common questions

Frequently Asked Questions

A entropia cruzada binária mede quão bem as probabilidades previstas \hat{y} correspondem aos rótulos binários verdadeiros y, penalizando fortemente predições erradas confiantes.

Esta equação é a função de perda padrão para problemas de classificação binária onde a saída é uma única probabilidade entre 0 e 1. É mais eficaz quando combinada com uma função de ativação sigmoide na camada final de uma rede neural.

Ela fornece uma superfície suave e convexa para otimização, permitindo que o gradiente descendente atualize efetivamente os pesos do modelo. Ao penalizar fortemente as previsões confiantes, mas incorretas, ela força o modelo a aprender limites mais distintos entre as classes.

Usar p=0 ou p=1 diretamente. Esquecer o termo (1-y).

No caso de training a spam classifier with probabilistic output, Binary Cross-Entropy é utilizado para calcular Loss from Actual Label (0/1) and Predicted Prob. O resultado importa porque ajuda a avaliar a incerteza, a dispersão ou as evidências antes de tirar uma conclusão dos dados.

Certifique-se de que os valores preditos p permaneçam entre (0, 1) para evitar logaritmos naturais indefinidos em 0 ou 1. A perda é 0 somente se a previsão corresponder perfeitamente ao rótulo. Para alvos multi-classe, use a variante Entropia Cruzada Categórica.

References

Sources

Wikipedia: Cross-entropy
Goodfellow, I., Bengio, Y., Courville, A. (2016). Deep Learning. MIT Press.
Deep Learning (Ian Goodfellow, Yoshua Bengio, and Aaron Courville)
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (Chapter 6, Section 6.2.2.2)
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. (Chapter 4, Section 4.3.4)
Standard curriculum — Machine Learning (Classification Losses)

Overview

Variables

Derivation

Escrever a perda para um exemplo:

Média sobre N exemplos:

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Logistic Function

Frequently Asked Questions

Sources