Data & Computing머신 러닝University
AQAAPOntarioNSWCBSEGCE O-LevelMoECAPS

이진 교차 엔트로피 손실

분류를 위한 손실 함수.

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

이진 교차 엔트로피 손실(로그 손실)은 두 확률 분포(실제 이진 레이블과 예측 확률) 간의 차이를 정량화합니다. 확신은 있지만 잘못된 예측에 큰 로그 페널티를 적용하여 경사 하강법과 같은 최적화 알고리즘이 모델 정확도를 향상시키도록 안내합니다.

When to use: 이 함수는 출력이 0과 1 사이의 단일 확률 값인 이진 분류 작업을 위해 특별히 설계되었습니다. 로지스틱 회귀 및 출력 계층에서 시그모이드 활성화 함수를 사용하는 신경망의 목적 함수로 가장 일반적으로 사용됩니다.

Why it matters: 단순한 분류 오류와 달리 이 손실 함수는 미분 가능하므로 딥 러닝의 역전파에 필수적입니다. 이는 모델이 '불확실하게 틀린' 것보다 '확신하며 틀린' 경우에 더 심하게 패널티를 받도록 하여 더 강건한 확률적 예측을 가능하게 합니다.

Symbols

Variables

y = True Label (0/1), p = Predicted Prob, L = Loss

True Label (0/1)
Variable
Predicted Prob
Variable
Loss
Variable

Walkthrough

Derivation

이진 교차 엔트로피(로그 손실)의 유도

독립적인 베르누이 레이블 데이터에 대한 음의 로그 가능도로서 이진 교차 엔트로피 손실을 유도합니다.

  • 관측값은 독립적입니다(가능도 분해를 위해 i.i.d.).
  • 모델 출력은 0 < _i < 1 (확률)을 만족합니다.
1

베르누이 가능도를 작성합니다:

=1이면 항은 _i에 기여하고, =0이면 (1-_i)에 기여합니다. 독립성으로 인해 i에 대해 곱할 수 있습니다.

2

로그 가능도를 취합니다:

로그는 곱을 합으로 바꾸고 최적화를 더 쉽게 만듭니다.

3

최소화 목적으로 변환합니다:

음의 평균 로그 가능도를 최소화하는 것은 가능도를 최대화하는 것과 동일합니다. 이것이 이진 교차 엔트로피입니다.

Result

Source: Standard curriculum — Machine Learning

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

곡선의 '깊이'가 손실을 나타내는 곡선형 패널티 경관을 상상해보세요. 예측이 실제 레이블과 완벽하게 일치할 때 경관은 평평하지만(손실 0), 예측이 틀리면 깊은 계곡(높은 손실)으로 급격히 떨어집니다.

단일 예측에 대한 계산된 손실 값입니다.
더 높은 손실은 모델의 예측 확률과 실제 결과 사이의 더 큰 차이를 나타내며, 모델이 매개변수를 조정해야 함을 알립니다.
인스턴스의 실제 이진 레이블(음성 클래스는 0, 양성 클래스는 1)입니다.
모델이 올바르게 예측하려는 실제 정답을 나타냅니다.
실제 레이블이 1(양성 클래스)일 모델의 예측 확률입니다.
0(확실히 음성)부터 1(확실히 양성)까지의 범위에서 양성 결과에 대한 모델의 신뢰도를 반영합니다.

Signs and relationships

  • -: 확률(0과 1 사이의 값)의 자연 로그는 항상 음수 또는 0입니다. 앞의 음수 부호는 이 값을 반전시켜 손실 함수가 음수가 아니며 최소화될 수 있도록 보장합니다.
  • ln(): 로그 함수는 모델이 확신을 가지고 있지만 잘못된 예측을 할 때 큰 패널티를 부과합니다. 예를 들어, 실제 레이블 'y'가 1이지만 'p'가 0에 매우 가까우면 'ln(p)'는 큰 음수가 됩니다.

Free study cues

Insight

Canonical usage

이진 교차 엔트로피 손실은 분류 작업에서 예측 확률과 실제 이진 라벨 사이의 오차를 정량화하는 무차원량입니다.

Dimension note

이진 교차 엔트로피 손실은 확률과 이진 라벨에 작용하며, 이 둘은 무차원량이므로 본질적으로 무차원입니다.

Ballpark figures

  • Quantity:

One free problem

Practice Problem

의료 진단 모델이 환자가 특정 상태일 확률을 0.85로 예측합니다. 환자가 실제로 그 상태를 가지고 있다면(y=1), 이진 교차 엔트로피 손실을 계산하십시오.

Hint: y=1이므로 공식은 L = -ln(p)로 단순화됩니다.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

고양이/개 분류기를 훈련할 때, 이진 교차 엔트로피 손실은 실제 레이블(0/1)과 예측 확률로부터 손실을 계산하는 데 사용됩니다. 결과가 중요한 이유는 데이터로부터 결론을 내리기 전에 불확실성, 분포 또는 증거를 판단하는 데 도움이 되기 때문입니다.

Study smarter

Tips

  • 수치 불안정성이나 정의되지 않은 자연로그를 방지하려면 입력 확률이 정확히 0 또는 1이 되지 않도록 하세요.
  • 손실값이 0이 되는 것은 예측 확률이 목표 레이블과 완전히 일치할 때뿐입니다.
  • 다중 클래스 상황에서는 이 이진 변형 대신 Categorical Cross-Entropy를 사용하세요.

Avoid these traps

Common Mistakes

  • 밑이 10인 로그를 사용하는 것(자연로그를 사용해야 합니다).
  • p=0 또는 p=1로 정확히 두는 것(무한대를 유발합니다).

Common questions

Frequently Asked Questions

독립적인 베르누이 레이블 데이터에 대한 음의 로그 가능도로서 이진 교차 엔트로피 손실을 유도합니다.

이 함수는 출력이 0과 1 사이의 단일 확률 값인 이진 분류 작업을 위해 특별히 설계되었습니다. 로지스틱 회귀 및 출력 계층에서 시그모이드 활성화 함수를 사용하는 신경망의 목적 함수로 가장 일반적으로 사용됩니다.

단순한 분류 오류와 달리 이 손실 함수는 미분 가능하므로 딥 러닝의 역전파에 필수적입니다. 이는 모델이 '불확실하게 틀린' 것보다 '확신하며 틀린' 경우에 더 심하게 패널티를 받도록 하여 더 강건한 확률적 예측을 가능하게 합니다.

밑이 10인 로그를 사용하는 것(자연로그를 사용해야 합니다). p=0 또는 p=1로 정확히 두는 것(무한대를 유발합니다).

고양이/개 분류기를 훈련할 때, 이진 교차 엔트로피 손실은 실제 레이블(0/1)과 예측 확률로부터 손실을 계산하는 데 사용됩니다. 결과가 중요한 이유는 데이터로부터 결론을 내리기 전에 불확실성, 분포 또는 증거를 판단하는 데 도움이 되기 때문입니다.

수치 불안정성이나 정의되지 않은 자연로그를 방지하려면 입력 확률이 정확히 0 또는 1이 되지 않도록 하세요. 손실값이 0이 되는 것은 예측 확률이 목표 레이블과 완전히 일치할 때뿐입니다. 다중 클래스 상황에서는 이 이진 변형 대신 Categorical Cross-Entropy를 사용하세요.

References

Sources

  1. Wikipedia: Cross-entropy
  2. Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
  3. Deep Learning (Goodfellow, Bengio, Courville)
  4. Pattern Recognition and Machine Learning (Bishop)
  5. Goodfellow, Bengio, and Courville Deep Learning
  6. Bishop Pattern Recognition and Machine Learning
  7. Standard curriculum — Machine Learning