Data & Computing機械学習University
AQAAPOntarioNSWCBSEGCE O-LevelMoECAPS

二値クロスエントロピー損失

分類のための損失関数。

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

バイナリクロスエントロピー損失(ログ損失)は、2つの確率分布(実際の二値ラベルと予測確率)の差を定量化します。確信はあるが誤った予測に対して対数的に大きなペナルティを適用し、勾配降下法などの最適化アルゴリズムを導いてモデルの精度を向上させます。

When to use: この関数は、出力が0から1の間の単一確率値である二値分類タスクのために特別に設計されています。ロジスティック回帰や、出力層にシグモイド活性化関数を利用するニューラルネットワークの目的関数として最も一般的に使用されます。

Why it matters: 単純な分類誤差とは異なり、この損失関数は微分可能であり、深層学習における誤差逆伝播に不可欠です。モデルが「不確かに間違っている」場合よりも「確信を持って間違っている」場合により厳しくペナルティを課すことで、よりロバストな確率的予測を実現します。

Symbols

Variables

y = True Label (0/1), p = Predicted Prob, L = Loss

True Label (0/1)
Variable
Predicted Prob
Variable
Loss
Variable

Walkthrough

Derivation

バイナリクロスエントロピー(対数損失)の導出

独立したベルヌーイラベル付きデータに対する負の対数尤度として、バイナリクロスエントロピー損失を導出する。

  • 観測は独立している(尤度分解のためにi.i.d.)。
  • モデル出力は 0 < _i < 1(確率)を満たす。
1

ベルヌーイ尤度を記述する:

=1 の場合、項は _i に寄与し、=0 の場合、(1-_i) に寄与する。独立性により、i について積算できる。

2

対数尤度を取る:

対数は積を和に変換し、最適化を容易にする。

3

最小化目的に変換する:

負の平均対数尤度を最小化することは尤度を最大化することと等価であり、これがバイナリクロスエントロピーである。

Result

Source: Standard curriculum — Machine Learning

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

曲線的なペナルティのランドスケープを想像してください。曲線の「深さ」が損失を表します。予測が真のラベルと完全に一致するとき、ランドスケープは平坦(損失ゼロ)ですが、急峻に深い谷(高損失)に落ち込みます。

単一予測に対する計算された損失値。
損失が高いほど、モデルの予測確率と実際の結果との間の乖離が大きく、モデルがパラメータを調整する必要があることを示す。
インスタンスの真のバイナリラベル(0は負のクラス、1は正のクラス)。
モデルが正しく予測しようとするグラウンドトゥルースを表す。
真のラベルが1(正のクラス)であるというモデルの予測確率。
モデルの正の結果に対する信頼度を反映し、0(確実に負)から1(確実に正)の範囲を取る。

Signs and relationships

  • -: 確率(0から1の間の値)の自然対数は常に負またはゼロです。先頭の負号はこの値を反転させ、損失関数が非負であることを保証し、最小化可能にします。
  • ln(): 対数関数は、モデルが確信を持って誤った予測をした場合に大きなペナルティを課します。例えば、真のラベル 'y' が1であるにもかかわらず 'p' が非常に0に近い場合、'ln(p)' は大きな負の数になります。

Free study cues

Insight

Canonical usage

二値クロスエントロピー損失は、分類タスクにおいて予測確率と真の二値ラベルとの間の誤差を定量化する無次元量です。

Dimension note

二値クロスエントロピー損失は、確率と二値ラベルに作用するため本質的に無次元です。これらはいずれも無次元量です。

Ballpark figures

  • Quantity:

One free problem

Practice Problem

医療診断モデルが、患者が特定の疾患を持つ確率を0.85と予測しています。患者が実際にその疾患を持っている場合(y=1)、バイナリクロスエントロピー損失を計算してください。

Hint: y=1なので、式は L = -ln(p) に簡略化されます。

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

猫/犬分類器の訓練において、バイナリクロスエントロピー損失は、真のラベル(0/1)と予測確率から損失を計算するために使用されます。この結果は、データから結論を導く前に、不確実性、ばらつき、または証拠を判断するのに役立つため重要です。

Study smarter

Tips

  • 数値的不安定性や未定義の自然対数を防ぐため、入力確率がちょうど 0 または 1 になることを避けてください。
  • 損失値が 0 になるのは、予測確率が対象ラベルと完全に一致する場合だけです。
  • 多クラスの場合は、この二値版ではなく Categorical Cross-Entropy を使用してください。

Avoid these traps

Common Mistakes

  • 底 10 の対数を使うこと(自然対数を使用します)。
  • p=0 または p=1 ちょうどにすること(無限大を引き起こします)。

Common questions

Frequently Asked Questions

独立したベルヌーイラベル付きデータに対する負の対数尤度として、バイナリクロスエントロピー損失を導出する。

この関数は、出力が0から1の間の単一確率値である二値分類タスクのために特別に設計されています。ロジスティック回帰や、出力層にシグモイド活性化関数を利用するニューラルネットワークの目的関数として最も一般的に使用されます。

単純な分類誤差とは異なり、この損失関数は微分可能であり、深層学習における誤差逆伝播に不可欠です。モデルが「不確かに間違っている」場合よりも「確信を持って間違っている」場合により厳しくペナルティを課すことで、よりロバストな確率的予測を実現します。

底 10 の対数を使うこと(自然対数を使用します)。 p=0 または p=1 ちょうどにすること(無限大を引き起こします)。

猫/犬分類器の訓練において、バイナリクロスエントロピー損失は、真のラベル(0/1)と予測確率から損失を計算するために使用されます。この結果は、データから結論を導く前に、不確実性、ばらつき、または証拠を判断するのに役立つため重要です。

数値的不安定性や未定義の自然対数を防ぐため、入力確率がちょうど 0 または 1 になることを避けてください。 損失値が 0 になるのは、予測確率が対象ラベルと完全に一致する場合だけです。 多クラスの場合は、この二値版ではなく Categorical Cross-Entropy を使用してください。

References

Sources

  1. Wikipedia: Cross-entropy
  2. Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
  3. Deep Learning (Goodfellow, Bengio, Courville)
  4. Pattern Recognition and Machine Learning (Bishop)
  5. Goodfellow, Bengio, and Courville Deep Learning
  6. Bishop Pattern Recognition and Machine Learning
  7. Standard curriculum — Machine Learning