Data & Computing정보 이론University
AQAAPOntarioNSWCBSEGCE O-LevelMoECAPS

KL 발산 (베르누이)

베르누이 분포에 대한 D_KL(p||q).

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

베르누이 KL 발산은 두 베르누이 분포 간의 상대 엔트로피를 측정하여 분포 q를 사용하여 분포 p를 근사할 때 손실되는 정보를 정량화합니다. 공유 확률 공간에서 두 이진 결과 간의 통계적 거리를 특성화하는 비대칭 측정항목입니다.

When to use: 이 방정식은 이진 분류기의 성능을 평가하거나 이론적 모델을 관찰된 이진 빈도와 비교할 때 필수적입니다. 머신러닝에서 이진 교차 엔트로피와 같은 손실 함수의 구성 요소로, 그리고 정보 이론적 모델 선택의 맥락에서 자주 적용됩니다.

Why it matters: 이는 현실이 다른데도 한 확률 집합을 가정함으로써 발생하는 '놀라움' 또는 추가 비용을 측정하는 엄격한 방법을 제공합니다. 실제로 이 발산을 최소화하면 데이터 전송이 최적화되고 예측 모델이 가능한 한 실제 데이터 생성 프로세스에 가까워지도록 보장합니다.

Symbols

Variables

= KL Divergence, p = True Probability, q = Model Probability

KL Divergence
nats
True Probability
Variable
Model Probability
Variable

Walkthrough

Derivation

베르누이 변수에 대한 KL 발산 유도

KL 발산은 실제 확률 p와 모델 확률 q 간의 불일치를 측정합니다.

1

KL 발산의 정의에서 시작합니다:

KL은 확률의 기대 로그 비율입니다.

2

X=1 및 X=0에 대한 확률을 쓰시오:

베르누이 분포는 성공 확률에 의해 결정됩니다.

3

기댓값을 전개하시오:

이것은 베르누이 KL 발산의 표준 닫힌 형태입니다.

Result

Visual intuition

Graph

Graph type: quadratic

Why it behaves this way

Intuition

두 개의 서로 다른 막대 차트를 상상해 보세요. 각각은 두 개의 막대(성공과 실패)로 구성된 베르누이 분포를 나타냅니다. KL 발산은 첫 번째 막대 차트를 설명하는 데 필요한 '추가 공간' 또는 '거리'를 정량화합니다.

참조 베르누이 분포의 '성공' 결과에 대한 실제 확률.
이것은 실제 데이터 생성 과정에서 관찰되거나 알려진, 사건이 발생할 실제 가능성입니다.
모델 베르누이 분포의 '성공' 결과에 대한 예측 또는 근사 확률.
이것은 동일한 사건의 가능성에 대한 모델의 추정 또는 가설입니다.
실제 분포 'p'와 근사 분포 'q' 사이의 Kullback-Leibler (KL) 발산.
이것은 실제로 'p'를 따르는 결과를 설명하기 위해 'q'의 확률을 사용할 때의 총 '정보 손실' 또는 '상대 엔트로피'입니다. 값이 높을수록 'q'가 'p'의 근사가 더 나쁘다는 것을 의미합니다.
'성공' 결과로부터의 전체 발산에 대한 기여.
이 항은 성공의 실제 확률이 'p'이지만 우리가 'q'를 기대했을 때의 '놀라움' 또는 정보 불일치를 정량화하며, 'p'가 실제로 발생하는 빈도로 가중됩니다.
'실패' 결과로부터의 전체 발산에 대한 기여.
성공 항과 유사하게, 이것은 '실패' 결과에 대한 '놀라움' 또는 정보 불일치를 측정하며, 실제 확률 '1-p'로 가중됩니다.

Signs and relationships

  • \ln: 로그 함수는 확률 비율을 정보 단위(자연로그의 경우 nats)로 변환합니다. 그 특성으로 인해 `p\ln(p/q)`와 `(1-p)((1-p)/(1-q))` 항은 항상 음수가 아닙니다.
  • p: 참 확률 'p'와 '(1-p)'는 가중치 역할을 합니다. 이들은 각 결과(성공 또는 실패)에 대한 정보 차이가
  • +: 두 항은 합산되어 두 가능한 결과(성공 및 실패)에 걸친 총 기대 정보 차이를 설명합니다.

Free study cues

Insight

Canonical usage

KL 발산은 무차원량이며, 사용된 로그의 밑에 따라 흔히 '내트' 또는 '비트'로 표현되지만, 근본적으로는 단위 없는 정보 척도를 나타냅니다.

Dimension note

KL 발산은 확률로부터 계산되며, 확률 자체가 무차원 비율이므로 본질적으로 무차원입니다. '내트' 또는 '비트'는 정보의 단위를 나타내기 위해 자주 사용되지만, 물리적 단위는 아닙니다.

One free problem

Practice Problem

동전의 앞면이 나올 실제 확률이 p = 0.5인 것으로 알려져 있습니다. 연구자가 이 동전을 추정 확률 q = 0.2로 모델링하는 경우, 결과 KL 발산을 nats 단위로 계산하십시오.

Hint: p/q 및 (1-p)/(1-q) 항에 대해 자연 로그를 사용하여 값을 공식에 대입하십시오.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

모델의 예측 확률이 현실과 얼마나 다른지 정량화할 때 KL 발산(베르누이)은 실제 확률과 모델 확률로부터 KL 발산을 계산하는 데 사용됩니다. 결과가 중요한 이유는 숫자를 확실성으로 취급하지 않고 가능성을 추정하고 위험이나 결정 진술을 내리는 데 도움이 되기 때문입니다.

Study smarter

Tips

  • 0이나 무한대의 자연로그를 피하려면 p와 q 값이 엄격히 0과 1 사이에 있는지 확인하세요.
  • D(p||q)는 D(q||p)와 같지 않다는 점을 기억하세요. 순서는 참값 p에서 모델 q로의 방향을 나타냅니다.
  • 발산이 0이면 두 분포가 완전히 동일함을 항상 의미합니다.

Avoid these traps

Common Mistakes

  • p와 q를 서로 바꾸는 것(값이 달라집니다).
  • KL이 거리 측정이라고 가정하는 것 (실제로는 대칭이 아닙니다).

Common questions

Frequently Asked Questions

KL 발산은 실제 확률 p와 모델 확률 q 간의 불일치를 측정합니다.

이 방정식은 이진 분류기의 성능을 평가하거나 이론적 모델을 관찰된 이진 빈도와 비교할 때 필수적입니다. 머신러닝에서 이진 교차 엔트로피와 같은 손실 함수의 구성 요소로, 그리고 정보 이론적 모델 선택의 맥락에서 자주 적용됩니다.

이는 현실이 다른데도 한 확률 집합을 가정함으로써 발생하는 '놀라움' 또는 추가 비용을 측정하는 엄격한 방법을 제공합니다. 실제로 이 발산을 최소화하면 데이터 전송이 최적화되고 예측 모델이 가능한 한 실제 데이터 생성 프로세스에 가까워지도록 보장합니다.

p와 q를 서로 바꾸는 것(값이 달라집니다). KL이 거리 측정이라고 가정하는 것 (실제로는 대칭이 아닙니다).

모델의 예측 확률이 현실과 얼마나 다른지 정량화할 때 KL 발산(베르누이)은 실제 확률과 모델 확률로부터 KL 발산을 계산하는 데 사용됩니다. 결과가 중요한 이유는 숫자를 확실성으로 취급하지 않고 가능성을 추정하고 위험이나 결정 진술을 내리는 데 도움이 되기 때문입니다.

0이나 무한대의 자연로그를 피하려면 p와 q 값이 엄격히 0과 1 사이에 있는지 확인하세요. D(p||q)는 D(q||p)와 같지 않다는 점을 기억하세요. 순서는 참값 p에서 모델 q로의 방향을 나타냅니다. 발산이 0이면 두 분포가 완전히 동일함을 항상 의미합니다.

References

Sources

  1. Elements of Information Theory by Thomas M. Cover and Joy A. Thomas
  2. Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
  3. Wikipedia: Kullback-Leibler divergence
  4. Cover and Thomas, Elements of Information Theory, 2nd ed.
  5. Wikipedia: Bernoulli distribution
  6. IUPAC Gold Book: relative entropy
  7. Cover and Thomas Elements of Information Theory