이진 교차 엔트로피 손실
분류를 위한 손실 함수.
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
이진 교차 엔트로피 손실(로그 손실)은 두 확률 분포(실제 이진 레이블과 예측 확률) 간의 차이를 정량화합니다. 확신은 있지만 잘못된 예측에 큰 로그 페널티를 적용하여 경사 하강법과 같은 최적화 알고리즘이 모델 정확도를 향상시키도록 안내합니다.
When to use: 이 함수는 출력이 0과 1 사이의 단일 확률 값인 이진 분류 작업을 위해 특별히 설계되었습니다. 로지스틱 회귀 및 출력 계층에서 시그모이드 활성화 함수를 사용하는 신경망의 목적 함수로 가장 일반적으로 사용됩니다.
Why it matters: 단순한 분류 오류와 달리 이 손실 함수는 미분 가능하므로 딥 러닝의 역전파에 필수적입니다. 이는 모델이 '불확실하게 틀린' 것보다 '확신하며 틀린' 경우에 더 심하게 패널티를 받도록 하여 더 강건한 확률적 예측을 가능하게 합니다.
Symbols
Variables
y = True Label (0/1), p = Predicted Prob, L = Loss
Walkthrough
Derivation
이진 교차 엔트로피(로그 손실)의 유도
독립적인 베르누이 레이블 데이터에 대한 음의 로그 가능도로서 이진 교차 엔트로피 손실을 유도합니다.
- 관측값은 독립적입니다(가능도 분해를 위해 i.i.d.).
- 모델 출력은 0 < _i < 1 (확률)을 만족합니다.
베르누이 가능도를 작성합니다:
=1이면 항은 _i에 기여하고, =0이면 (1-_i)에 기여합니다. 독립성으로 인해 i에 대해 곱할 수 있습니다.
로그 가능도를 취합니다:
로그는 곱을 합으로 바꾸고 최적화를 더 쉽게 만듭니다.
최소화 목적으로 변환합니다:
음의 평균 로그 가능도를 최소화하는 것은 가능도를 최대화하는 것과 동일합니다. 이것이 이진 교차 엔트로피입니다.
Result
Source: Standard curriculum — Machine Learning
Visual intuition
Graph
Graph type: logarithmic
Why it behaves this way
Intuition
곡선의 '깊이'가 손실을 나타내는 곡선형 패널티 경관을 상상해보세요. 예측이 실제 레이블과 완벽하게 일치할 때 경관은 평평하지만(손실 0), 예측이 틀리면 깊은 계곡(높은 손실)으로 급격히 떨어집니다.
Signs and relationships
- -: 확률(0과 1 사이의 값)의 자연 로그는 항상 음수 또는 0입니다. 앞의 음수 부호는 이 값을 반전시켜 손실 함수가 음수가 아니며 최소화될 수 있도록 보장합니다.
- ln(): 로그 함수는 모델이 확신을 가지고 있지만 잘못된 예측을 할 때 큰 패널티를 부과합니다. 예를 들어, 실제 레이블 'y'가 1이지만 'p'가 0에 매우 가까우면 'ln(p)'는 큰 음수가 됩니다.
Free study cues
Insight
Canonical usage
이진 교차 엔트로피 손실은 분류 작업에서 예측 확률과 실제 이진 라벨 사이의 오차를 정량화하는 무차원량입니다.
Dimension note
이진 교차 엔트로피 손실은 확률과 이진 라벨에 작용하며, 이 둘은 무차원량이므로 본질적으로 무차원입니다.
Ballpark figures
- Quantity:
One free problem
Practice Problem
의료 진단 모델이 환자가 특정 상태일 확률을 0.85로 예측합니다. 환자가 실제로 그 상태를 가지고 있다면(y=1), 이진 교차 엔트로피 손실을 계산하십시오.
Hint: y=1이므로 공식은 L = -ln(p)로 단순화됩니다.
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
고양이/개 분류기를 훈련할 때, 이진 교차 엔트로피 손실은 실제 레이블(0/1)과 예측 확률로부터 손실을 계산하는 데 사용됩니다. 결과가 중요한 이유는 데이터로부터 결론을 내리기 전에 불확실성, 분포 또는 증거를 판단하는 데 도움이 되기 때문입니다.
Study smarter
Tips
- 수치 불안정성이나 정의되지 않은 자연로그를 방지하려면 입력 확률이 정확히 0 또는 1이 되지 않도록 하세요.
- 손실값이 0이 되는 것은 예측 확률이 목표 레이블과 완전히 일치할 때뿐입니다.
- 다중 클래스 상황에서는 이 이진 변형 대신 Categorical Cross-Entropy를 사용하세요.
Avoid these traps
Common Mistakes
- 밑이 10인 로그를 사용하는 것(자연로그를 사용해야 합니다).
- p=0 또는 p=1로 정확히 두는 것(무한대를 유발합니다).
Common questions
Frequently Asked Questions
독립적인 베르누이 레이블 데이터에 대한 음의 로그 가능도로서 이진 교차 엔트로피 손실을 유도합니다.
이 함수는 출력이 0과 1 사이의 단일 확률 값인 이진 분류 작업을 위해 특별히 설계되었습니다. 로지스틱 회귀 및 출력 계층에서 시그모이드 활성화 함수를 사용하는 신경망의 목적 함수로 가장 일반적으로 사용됩니다.
단순한 분류 오류와 달리 이 손실 함수는 미분 가능하므로 딥 러닝의 역전파에 필수적입니다. 이는 모델이 '불확실하게 틀린' 것보다 '확신하며 틀린' 경우에 더 심하게 패널티를 받도록 하여 더 강건한 확률적 예측을 가능하게 합니다.
밑이 10인 로그를 사용하는 것(자연로그를 사용해야 합니다). p=0 또는 p=1로 정확히 두는 것(무한대를 유발합니다).
고양이/개 분류기를 훈련할 때, 이진 교차 엔트로피 손실은 실제 레이블(0/1)과 예측 확률로부터 손실을 계산하는 데 사용됩니다. 결과가 중요한 이유는 데이터로부터 결론을 내리기 전에 불확실성, 분포 또는 증거를 판단하는 데 도움이 되기 때문입니다.
수치 불안정성이나 정의되지 않은 자연로그를 방지하려면 입력 확률이 정확히 0 또는 1이 되지 않도록 하세요. 손실값이 0이 되는 것은 예측 확률이 목표 레이블과 완전히 일치할 때뿐입니다. 다중 클래스 상황에서는 이 이진 변형 대신 Categorical Cross-Entropy를 사용하세요.
References
Sources
- Wikipedia: Cross-entropy
- Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
- Deep Learning (Goodfellow, Bengio, Courville)
- Pattern Recognition and Machine Learning (Bishop)
- Goodfellow, Bengio, and Courville Deep Learning
- Bishop Pattern Recognition and Machine Learning
- Standard curriculum — Machine Learning