Data & Computing情報理論University
AQAAPOntarioNSWCBSEGCE O-LevelMoECAPS

KLダイバージェンス(ベルヌーイ)

D_KL(p||q) ベルヌーイ分布の場合。

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

ベルヌーイKLダイバージェンスは、2つのベルヌーイ分布間の相対エントロピーを測定し、分布qを使用して分布pを近似するときに失われる情報を定量化します。これは非対称な指標であり、共有確率空間上の2つの二値結果の間の統計的距離を特徴付けます。

When to use: この式は、二値分類器の性能を評価する場合や、理論モデルを観測された二値頻度と比較する場合に不可欠です。機械学習では、二値交差エントロピーのような損失関数の要素として、また情報理論的なモデル選択の文脈で頻繁に適用されます。

Why it matters: これは、現実が異なるにもかかわらずある確率集合を仮定することによって生じる「驚き」または追加コストを測定する厳密な方法を提供します。実際には、このダイバージェンスを最小化することでデータ伝送を最適化し、予測モデルが真のデータ生成プロセスに可能な限り近づくことを保証します。

Symbols

Variables

= KL Divergence, p = True Probability, q = Model Probability

KL Divergence
nats
True Probability
Variable
Model Probability
Variable

Walkthrough

Derivation

ベルヌーイ変数に対するKLダイバージェンスの導出

KLダイバージェンスは真の確率pとモデルの確率qの間の不一致を測定します。

1

KLダイバージェンスの定義から始めます:

KLは確率の期待対数比です。

2

X=1とX=0の確率を書け:

ベルヌーイ分布は成功確率によって決定されます。

3

期待値を展開する:

これはベルヌーイKLダイバージェンスの標準的な閉形式です。

Result

Visual intuition

Graph

Graph type: quadratic

Why it behaves this way

Intuition

2つの異なる棒グラフを想像してください。各グラフは2本の棒(成功と失敗)を持つベルヌーイ分布を表しています。KLダイバージェンスは、最初の棒グラフを説明するために必要な「余分な空間」または「距離」を定量化します。

参照ベルヌーイ分布の「成功」結果の真の確率。
これは、真のデータ生成プロセスから観測または既知の、イベントが発生する実際の確率です。
モデルベルヌーイ分布の「成功」結果の予測または近似確率。
これは、同じイベントの確率に対するモデルの推定または仮説です。
真の分布'p'と近似分布'q'の間のカルバック・ライブラー(KL)ダイバージェンス。
これは、真に'p'に従う結果を説明するために'q'の確率を使用する場合の総「情報損失」または「相対エントロピー」です。値が大きいほど、'q'は'p'の近似が悪いことを意味します。
「成功」結果からの総ダイバージェンスへの寄与。
この項は、成功の真の確率が'p'であるにもかかわらず'q'を期待した場合の「驚き」または情報の不一致を、'p'が実際に発生する頻度で重み付けして定量化します。
「失敗」結果からの総ダイバージェンスへの寄与。
成功項と同様に、これは「失敗」結果に対する「驚き」または情報の不一致を、その真の確率'1-p'で重み付けして測定します。

Signs and relationships

  • \ln: 対数関数は確率比を情報量の単位(自然対数の場合、ナット)に変換します。その性質により、`p\ln(p/q)` および `(1-p)((1-p)/(1-q))` という項は常に非負となります。
  • p: 真の確率 'p' と '(1-p)' は重み係数として機能します。これらは各結果(成功または失敗)の情報の不一致を保証します。
  • +: 2 つの項を合計して、両方の可能な結果(成功と失敗)にわたる総期待情報不一致を説明します。

Free study cues

Insight

Canonical usage

KLダイバージェンスは無次元量であり、使用される対数の底に応じて「ナット」または「ビット」で表されることが多いですが、根本的には単位を持たない情報量の尺度です。

Dimension note

KLダイバージェンスは、確率から計算されるため本質的に無次元です。確率自体が無次元の比であるためです。「ナット」や「ビット」は情報の単位を示すためによく用いられますが、これらは物理単位ではありません。

One free problem

Practice Problem

コインの表が出る真の確率がp = 0.5であることが知られています。研究者がこのコインを推定確率q = 0.2でモデル化した場合、結果として生じるKLダイバージェンスをnatsで計算してください。

Hint: p/q項と(1-p)/(1-q)項の両方に自然対数を使用して、値を式に代入してください。

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

モデルの予測確率が現実からどれだけ異なるかを定量化する際、KLダイバージェンス(ベルヌーイ)は真の確率とモデル確率からKLダイバージェンスを計算するために使用されます。結果は、数値を確実なものとして扱うのではなく、尤度を推定しリスクや意思決定の文ステートメントを作成するのに役立つため重要です。

Study smarter

Tips

  • 0 や無限大の自然対数を避けるため、p と q の値が厳密に 0 と 1 の間にあることを確認してください。
  • D(p||q) は D(q||p) と等しくないことを覚えておいてください。順序は真の分布 p からモデル q への方向を表します。
  • 発散が 0 であることは、2 つの分布が完全に同一であることを常に意味します。

Avoid these traps

Common Mistakes

  • p と q を入れ替えること(値が変わります)。
  • KLを距離指標と仮定すること(対称ではありません)。

Common questions

Frequently Asked Questions

KLダイバージェンスは真の確率pとモデルの確率qの間の不一致を測定します。

この式は、二値分類器の性能を評価する場合や、理論モデルを観測された二値頻度と比較する場合に不可欠です。機械学習では、二値交差エントロピーのような損失関数の要素として、また情報理論的なモデル選択の文脈で頻繁に適用されます。

これは、現実が異なるにもかかわらずある確率集合を仮定することによって生じる「驚き」または追加コストを測定する厳密な方法を提供します。実際には、このダイバージェンスを最小化することでデータ伝送を最適化し、予測モデルが真のデータ生成プロセスに可能な限り近づくことを保証します。

p と q を入れ替えること(値が変わります)。 KLを距離指標と仮定すること(対称ではありません)。

モデルの予測確率が現実からどれだけ異なるかを定量化する際、KLダイバージェンス(ベルヌーイ)は真の確率とモデル確率からKLダイバージェンスを計算するために使用されます。結果は、数値を確実なものとして扱うのではなく、尤度を推定しリスクや意思決定の文ステートメントを作成するのに役立つため重要です。

0 や無限大の自然対数を避けるため、p と q の値が厳密に 0 と 1 の間にあることを確認してください。 D(p||q) は D(q||p) と等しくないことを覚えておいてください。順序は真の分布 p からモデル q への方向を表します。 発散が 0 であることは、2 つの分布が完全に同一であることを常に意味します。

References

Sources

  1. Elements of Information Theory by Thomas M. Cover and Joy A. Thomas
  2. Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
  3. Wikipedia: Kullback-Leibler divergence
  4. Cover and Thomas, Elements of Information Theory, 2nd ed.
  5. Wikipedia: Bernoulli distribution
  6. IUPAC Gold Book: relative entropy
  7. Cover and Thomas Elements of Information Theory