Data & ComputingAprendizado de MáquinaA-Level
CambridgeAQAAPOntarioNSWCBSEGCE O-LevelMoE

Entropia Cruzada Binária

Função de perda para classificação binária.

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

A Entropia Cruzada Binária mede a divergência entre duas distribuições de probabilidade, tipicamente os rótulos verdadeiros e as probabilidades preditas em uma tarefa de classificação binária. Ela calcula um valor de perda que penaliza as previsões exponencialmente à medida que divergem do valor da classe real.

When to use: Esta equação é a função de perda padrão para problemas de classificação binária onde a saída é uma única probabilidade entre 0 e 1. É mais eficaz quando combinada com uma função de ativação sigmoide na camada final de uma rede neural.

Why it matters: Ela fornece uma superfície suave e convexa para otimização, permitindo que o gradiente descendente atualize efetivamente os pesos do modelo. Ao penalizar fortemente as previsões confiantes, mas incorretas, ela força o modelo a aprender limites mais distintos entre as classes.

Symbols

Variables

L = Loss, y = Actual Label (0/1), p = Predicted Prob

Loss
Variable
Actual Label (0/1)
Variable
Predicted Prob
Variable

Walkthrough

Derivation

Fórmula: Entropia Cruzada Binária (Perda Logarítmica)

A entropia cruzada binária mede quão bem as probabilidades previstas correspondem aos rótulos binários verdadeiros y, penalizando fortemente predições erradas confiantes.

  • Rótulos binários y\in\{0,1\}.
  • Previsões são probabilidades em (0,1), comumente de um sigmoide.
  • Logaritmos são logaritmos naturais, a menos que especificado de outra forma (a escolha apenas muda a escala).
1

Escrever a perda para um exemplo:

Se y=1, apenas -() importa; se y=0, apenas -(1-) importa.

2

Média sobre N exemplos:

A perda do conjunto de dados é a média das perdas individuais, dando um único número a ser minimizado durante o treinamento.

Note: Na prática, as probabilidades são limitadas longe de 0 e 1 para evitar (0).

Result

Source: Standard curriculum — Machine Learning (Classification Losses)

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Uma paisagem onde o modelo visa encontrar o ponto mais baixo, representando a divergência mínima entre suas probabilidades previstas e os rótulos de classe verdadeiros, com gradientes íngremes que penalizam severamente a confiança incorreta

Term
Um valor escalar que quantifica a discrepância entre o rótulo verdadeiro e a probabilidade prevista para um único ponto de dados.
Um valor mais alto indica uma pior previsão, significando que o modelo estava mais 'errado' ou menos 'confiante na resposta correta'.
Term
O rótulo real e correto da classe binária (0 ou 1) para os dados de entrada.
Este é o valor alvo que o modelo está tentando aprender e prever.
Term
A probabilidade estimada pelo modelo de que o rótulo verdadeiro 'y' seja 1.
Representa o nível de confiança do modelo para a classe positiva.
Term
O logaritmo natural da probabilidade prevista 'p'.
Penaliza o modelo mais fortemente à medida que sua probabilidade prevista 'p' para a classe verdadeira se aproxima de 0 (ou seja, previsão errada e confiante).
Term
O logaritmo natural da probabilidade de que o rótulo verdadeiro 'y' seja 0 (isto é, 1-p).
Penaliza o modelo mais fortemente à medida que sua probabilidade prevista 'p' para a classe verdadeira se aproxima de 1 quando a classe verdadeira é 0 (ou seja, previsão errada confiante).

Signs and relationships

  • -: O logaritmo natural de uma probabilidade (um valor entre 0 e 1) é sempre negativo ou zero. Para garantir que a função de perda 'L' seja um valor não negativo que possa ser minimizado em direção a zero, toda a expressão é multiplicada

Free study cues

Insight

Canonical usage

Esta equação calcula um valor de perda adimensional, representando a divergência entre um rótulo binário verdadeiro e uma probabilidade prevista.

Dimension note

Todas as variáveis na fórmula de Entropia Cruzada Binária (rótulo verdadeiro 'y', probabilidade prevista 'p' e a perda resultante 'L') são grandezas adimensionais.

One free problem

Practice Problem

Um modelo de aprendizado de máquina identifica uma transação como fraudulenta (y = 1). A probabilidade predita de fraude pelo modelo é de 0,85. Calcule a perda de entropia cruzada binária para esta previsão específica.

Hint: Quando y = 1, a fórmula se simplifica para L = -ln(p).

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

No caso de training a spam classifier with probabilistic output, Binary Cross-Entropy é utilizado para calcular Loss from Actual Label (0/1) and Predicted Prob. O resultado importa porque ajuda a avaliar a incerteza, a dispersão ou as evidências antes de tirar uma conclusão dos dados.

Study smarter

Tips

  • Certifique-se de que os valores preditos p permaneçam entre (0, 1) para evitar logaritmos naturais indefinidos em 0 ou 1.
  • A perda é 0 somente se a previsão corresponder perfeitamente ao rótulo.
  • Para alvos multi-classe, use a variante Entropia Cruzada Categórica.

Avoid these traps

Common Mistakes

  • Usar p=0 ou p=1 diretamente.
  • Esquecer o termo (1-y).

Common questions

Frequently Asked Questions

A entropia cruzada binária mede quão bem as probabilidades previstas \hat{y} correspondem aos rótulos binários verdadeiros y, penalizando fortemente predições erradas confiantes.

Esta equação é a função de perda padrão para problemas de classificação binária onde a saída é uma única probabilidade entre 0 e 1. É mais eficaz quando combinada com uma função de ativação sigmoide na camada final de uma rede neural.

Ela fornece uma superfície suave e convexa para otimização, permitindo que o gradiente descendente atualize efetivamente os pesos do modelo. Ao penalizar fortemente as previsões confiantes, mas incorretas, ela força o modelo a aprender limites mais distintos entre as classes.

Usar p=0 ou p=1 diretamente. Esquecer o termo (1-y).

No caso de training a spam classifier with probabilistic output, Binary Cross-Entropy é utilizado para calcular Loss from Actual Label (0/1) and Predicted Prob. O resultado importa porque ajuda a avaliar a incerteza, a dispersão ou as evidências antes de tirar uma conclusão dos dados.

Certifique-se de que os valores preditos p permaneçam entre (0, 1) para evitar logaritmos naturais indefinidos em 0 ou 1. A perda é 0 somente se a previsão corresponder perfeitamente ao rótulo. Para alvos multi-classe, use a variante Entropia Cruzada Categórica.

References

Sources

  1. Wikipedia: Cross-entropy
  2. Goodfellow, I., Bengio, Y., Courville, A. (2016). Deep Learning. MIT Press.
  3. Deep Learning (Ian Goodfellow, Yoshua Bengio, and Aaron Courville)
  4. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (Chapter 6, Section 6.2.2.2)
  5. Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. (Chapter 4, Section 4.3.4)
  6. Standard curriculum — Machine Learning (Classification Losses)