Información Mutua (2×2)

Core idea

Overview

La Información Mutua cuantifica la dependencia estadística entre dos variables aleatorias discretas midiendo cuánta información se comparte entre ellas. En el caso de 2×2, calcula la divergencia de Kullback-Leibler entre la distribución de probabilidad conjunta y el producto de las distribuciones marginales de dos variables binarias.

When to use: Aplique esta fórmula al analizar la relación entre dos variables binarias, como comparar el resultado de una prueba con la presencia de una enfermedad. Se prefiere a la correlación lineal cuando se necesita capturar dependencias no lineales o asociaciones estadísticas generales.

Why it matters: Es un concepto fundamental en la teoría de la comunicación para calcular la capacidad del canal y en el aprendizaje automático para la selección de características. Una alta información mutua indica que conocer el estado de una variable reduce significativamente la incertidumbre sobre la otra.

Symbols

Variables

I(X;Y) = Mutual Information, $p_{00}$ = P(X=0,Y=0), $p_{01}$ = P(X=0,Y=1), $p_{10}$ = P(X=1,Y=0), $p_{11}$ = P(X=1,Y=1)

I(X;Y)

Mutual Information

nats

p_{00}

P(X=0,Y=0)

Variable

p_{01}

P(X=0,Y=1)

Variable

p_{10}

P(X=1,Y=0)

Variable

p_{11}

P(X=1,Y=1)

Variable

Walkthrough

Derivation

Derivacion de Información Mutua (2×2)

La información mutua suma p(x,y) ln(p(x,y)/(p(x)p(y))) sobre todos los pares.

X e Y son binarias.
Las probabilidades conjuntas p00,p01,p10,p11 suman 1.

1

Comenzar desde la definición:

La información mutua cuantifica la dependencia entre X e Y.

I (X; Y) = x, y \sum p (x, y) ln \frac{p ( x , y )}{p ( x ) p ( y )}

2

Calcular los marginales a partir de la tabla 2×2:

Necesitas p(x) y p(y) para formar la razón p(x,y)/(p(x)p(y)).

p (x) = y \sum p (x, y), p (y) = x \sum p (x, y)

3

Sumar los cuatro términos (p00, p01, p10, p11):

Cada probabilidad conjunta no nula contribuye con un término. Por convención, 0·ln(0)=0.

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Result

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Why it behaves this way

Intuition

Imagine un paisaje estadístico donde la 'altura' en cada punto (x,y) representa la desviación de la independencia. La información mutua es el 'volumen' total de estas desviaciones, ponderado por la frecuencia con que ocurre cada combinación.

Term

La cantidad de información que una variable aleatoria (X) proporciona sobre otra (Y).

Un valor alto significa que conocer X reduce significativamente la incertidumbre sobre Y (y viceversa); cero significa que son estadísticamente independientes.

Term

The joint probability of observing a specific outcome 'x' for variable X and a specific outcome 'y' for variable Y simultaneously.

Con qué frecuencia ocurre una combinación particular de estados (x,y) juntos en los datos observados.

Term

The product of the marginal probabilities of X taking outcome 'x' and Y taking outcome 'y', representing their joint probability if X and Y were statistically independent.

La frecuencia base de una combinación (x,y) si no hubiera relación ni información compartida entre X e Y.

Term

El 'contenido de información' o 'sorpresa' asociado con un par específico (x,y), en relación con la expectativa de independencia, en unidades de nats.

Mide cuánto más (o menos) probable es una combinación específica (x,y) de lo que sería si X e Y no estuvieran relacionados. Un valor positivo significa más probable, un valor negativo significa menos probable.

Term

Suma sobre todos los resultados discretos posibles para X e Y.

Agrega las contribuciones de información de cada combinación posible de X e Y para calcular la información compartida total.

Signs and relationships

\ln\frac{p(x,y)}{p(x)p(y)}: El logaritmo natural transforma la razón de probabilidades en una medida aditiva de información. Si la probabilidad conjunta observada p(x,y) es mayor que p(x)p(y), el término logarítmico es positivo; si es menor, el término es negativo.

Free study cues

Insight

Canonical usage

La información mutua es una cantidad adimensional que representa una medida de dependencia estadística. Convencionalmente se expresa en "nats" cuando se usa el logaritmo natural (ln), o en "bits" cuando se usa logaritmo en base 2 (log2)

Dimension note

La información mutua es inherentemente adimensional porque se calcula a partir de razones de probabilidades, que a su vez son adimensionales.

One free problem

Practice Problem

Un investigador está estudiando la relación entre una mutación genética específica y un rasgo raro. En una población perfectamente equilibrada, todas las probabilidades conjuntas son iguales (0.25 cada una). Calcule la Información Mutua.

Hint: Si la probabilidad conjunta de cada celda es igual al producto de sus probabilidades marginales, las variables son independientes.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

En el caso de quantifying how informative a medical test result is about disease status, Mutual Information (2×2) se utiliza para calcular Mutual Information from P(X=0,Y=0), P(X=0,Y=1), and P(X=1,Y=0). El resultado importa porque it helps evaluate model behaviour, algorithm cost, or prediction quality before relying on the output.

Study smarter

Tips

Asegúrese de que la suma de las probabilidades conjuntas (p00, p01, p10, p11) sea exactamente 1.0 antes de comenzar.
Calcule las probabilidades marginales para X e Y sumando las filas y columnas de la tabla de contingencia.
Considere los términos donde p(x,y) es cero como cero, ya que el límite de p log(p) cuando p se aproxima a cero es cero.
El resultado se mide en nats cuando se usa el logaritmo natural (ln) o en bits cuando se usa el logaritmo base 2.

Avoid these traps

Common Mistakes

Olvidar normalizar las probabilidades para que sumen 1.
Mezclar logaritmos (ln vs log2) y unidades (nats vs bits).

Keep going

Related Formulas

Common questions

Frequently Asked Questions

La información mutua suma p(x,y) ln(p(x,y)/(p(x)p(y))) sobre todos los pares.

Aplique esta fórmula al analizar la relación entre dos variables binarias, como comparar el resultado de una prueba con la presencia de una enfermedad. Se prefiere a la correlación lineal cuando se necesita capturar dependencias no lineales o asociaciones estadísticas generales.

Es un concepto fundamental en la teoría de la comunicación para calcular la capacidad del canal y en el aprendizaje automático para la selección de características. Una alta información mutua indica que conocer el estado de una variable reduce significativamente la incertidumbre sobre la otra.

Olvidar normalizar las probabilidades para que sumen 1. Mezclar logaritmos (ln vs log2) y unidades (nats vs bits).

En el caso de quantifying how informative a medical test result is about disease status, Mutual Information (2×2) se utiliza para calcular Mutual Information from P(X=0,Y=0), P(X=0,Y=1), and P(X=1,Y=0). El resultado importa porque it helps evaluate model behaviour, algorithm cost, or prediction quality before relying on the output.

Asegúrese de que la suma de las probabilidades conjuntas (p00, p01, p10, p11) sea exactamente 1.0 antes de comenzar. Calcule las probabilidades marginales para X e Y sumando las filas y columnas de la tabla de contingencia. Considere los términos donde p(x,y) es cero como cero, ya que el límite de p log(p) cuando p se aproxima a cero es cero. El resultado se mide en nats cuando se usa el logaritmo natural (ln) o en bits cuando se usa el logaritmo base 2.

References

Sources

Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
Wikipedia: Mutual Information
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience.
Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.

Overview

Variables

Derivation

Comenzar desde la definición:

Calcular los marginales a partir de la tabla 2×2:

Sumar los cuatro términos (p00, p01, p10, p11):

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Entropy (Shannon)

KL Divergence (Bernoulli)

Information Gain

Frequently Asked Questions

Sources