Informazione Mutua (2×2)

Core idea

Overview

L'Informazione Mutua quantifica la dipendenza statistica tra due variabili casuali discrete misurando quanta informazione è condivisa tra di loro. Nel caso della tabella di contingenza 2×2, calcola la divergenza di Kullback-Leibler tra la distribuzione di probabilità congiunta e il prodotto delle distribuzioni marginali di due variabili binarie.

When to use: Applica questa formula quando analizzi la relazione tra due variabili binarie, come il confronto tra un risultato di test e la presenza di una malattia. È preferita alla correlazione lineare quando è necessario catturare dipendenze non lineari o associazioni statistiche generali.

Why it matters: È un concetto fondamentale nella teoria della comunicazione per il calcolo della capacità del canale e nel machine learning per la selezione delle caratteristiche. Un'alta informazione mutua indica che conoscere lo stato di una variabile riduce significativamente l'incertezza sull'altra.

Symbols

Variables

I(X;Y) = Mutual Information, $p_{00}$ = P(X=0,Y=0), $p_{01}$ = P(X=0,Y=1), $p_{10}$ = P(X=1,Y=0), $p_{11}$ = P(X=1,Y=1)

I(X;Y)

Mutual Information

nats

p_{00}

P(X=0,Y=0)

Variable

p_{01}

P(X=0,Y=1)

Variable

p_{10}

P(X=1,Y=0)

Variable

p_{11}

P(X=1,Y=1)

Variable

Walkthrough

Derivation

Derivazione dell'Informazione Mutua da una Tabella Congiunta 2×2

L'informazione mutua somma p(x,y) ln(p(x,y)/(p(x)p(y))) su tutte le coppie.

X e Y sono binarie.
Le probabilità congiunte p00,p01,p10,p11 sommano a 1.

1

Parti dalla definizione:

L'informazione mutua quantifica la dipendenza tra X e Y.

I (X; Y) = x, y \sum p (x, y) ln \frac{p ( x , y )}{p ( x ) p ( y )}

2

Calcola i marginali dalla tabella 2×2:

Hai bisogno di p(x) e p(y) per formare il rapporto p(x,y)/(p(x)p(y)).

p (x) = y \sum p (x, y), p (y) = x \sum p (x, y)

3

Somma i quattro termini (p00, p01, p10, p11):

Ogni probabilità congiunta non nulla contribuisce con un termine. Per convenzione, 0·ln(0)=0.

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Result

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Why it behaves this way

Intuition

Immagina un paesaggio statistico in cui l'altezza in ogni punto (x,y) rappresenta la deviazione dall'indipendenza. L'informazione mutua rappresenta il volume totale di queste deviazioni, pesato in base alla frequenza con cui compare ciascuna combinazione.

Term

La quantita di informazione che una variabile casuale (X) fornisce su un'altra (Y).

Un valore alto significa che conoscere X riduce in modo significativo l'incertezza su Y (e viceversa); zero significa che le due variabili sono statisticamente indipendenti.

Term

La probabilita congiunta di osservare simultaneamente uno specifico esito 'x' per la variabile X e uno specifico esito 'y' per la variabile Y.

Quanto frequentemente una particolare combinazione di stati (x,y) si presenta insieme nei dati osservati.

Term

Il prodotto delle probabilita marginali che X assuma l'esito 'x' e che Y assuma l'esito 'y', che rappresenta la loro probabilita congiunta se X e Y fossero statisticamente indipendenti.

La frequenza di riferimento di una combinazione (x,y) se non vi fosse alcuna relazione o informazione condivisa tra X e Y.

Term

Il contenuto informativo, o la sorpresa, associato a una specifica coppia (x,y), rispetto all'ipotesi di indipendenza, in unita di nat.

Misura quanto una specifica combinazione (x,y) sia piu o meno probabile rispetto al caso in cui X e Y non siano correlate. Un valore positivo significa piu probabile, un valore negativo meno probabile.

Term

Sommatoria su tutti i possibili esiti discreti di X e Y.

Aggrega i contributi informativi di ogni possibile combinazione di X e Y per calcolare l'informazione condivisa totale.

Signs and relationships

\ln\frac{p(x,y)}{p(x)p(y)}: Il logaritmo naturale trasforma il rapporto tra probabilita in una misura additiva dell'informazione. Se la probabilita congiunta osservata p(x,y) e maggiore di p(x)p(y), il termine logaritmico e positivo; se e minore, il termine e negativo.

Free study cues

Insight

Canonical usage

Uso canonico: Mutual information is a dimensionless quantity, representing a measure of statistical dependence. It is conventionally expressed in 'nats' when the natural logarithm (ln) is used, or 'bits' when logarithm base 2 (log2)

Dimension note

Nota adimensionale: Mutual information is inherently dimensionless because it is calculated from ratios of probabilities, which are themselves dimensionless.

One free problem

Practice Problem

Un ricercatore sta studiando il legame tra una specifica mutazione genetica e un tratto raro. In una popolazione perfettamente bilanciata, le probabilità congiunte sono tutte uguali (0.25 ciascuna). Calcola l'Informazione Mutua.

Hint: Se la probabilità congiunta di ogni cella è uguale al prodotto delle sue probabilità marginali, le variabili sono indipendenti.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Nel contesto di Quantificare quanto è informativa un’indagine medica sullo stato di una malattia, Informazione Mutua (2×2) serve a trasformare le misure in un valore interpretabile. Il risultato è importante perché aiuta a valutare il comportamento del modello, il costo dell'algoritmo o la qualità della previsione prima di usare il risultato.

Study smarter

Tips

Assicurati che la somma delle probabilità congiunte (p00, p01, p10, p11) sia esattamente 1.0 prima di iniziare.
Calcola le probabilità marginali per X e Y sommando le righe e le colonne della tabella di contingenza.
Tratta i termini dove p(x,y) è zero come zero, poiché il limite di p log(p) quando p tende a zero è zero.
Il risultato è misurato in nats quando si usa il logaritmo naturale (ln) o in bit quando si usa il logaritmo in base 2.

Avoid these traps

Common Mistakes

Dimenticare di normalizzare le probabilità in modo che la somma sia 1.
Mescolare logaritmi (ln vs log2) e unità (nats vs bit).

Keep going

Related Formulas

Common questions

Frequently Asked Questions

L'informazione mutua somma p(x,y) ln(p(x,y)/(p(x)p(y))) su tutte le coppie.

Applica questa formula quando analizzi la relazione tra due variabili binarie, come il confronto tra un risultato di test e la presenza di una malattia. È preferita alla correlazione lineare quando è necessario catturare dipendenze non lineari o associazioni statistiche generali.

È un concetto fondamentale nella teoria della comunicazione per il calcolo della capacità del canale e nel machine learning per la selezione delle caratteristiche. Un'alta informazione mutua indica che conoscere lo stato di una variabile riduce significativamente l'incertezza sull'altra.

Dimenticare di normalizzare le probabilità in modo che la somma sia 1. Mescolare logaritmi (ln vs log2) e unità (nats vs bit).

Nel contesto di Quantificare quanto è informativa un’indagine medica sullo stato di una malattia, Informazione Mutua (2×2) serve a trasformare le misure in un valore interpretabile. Il risultato è importante perché aiuta a valutare il comportamento del modello, il costo dell'algoritmo o la qualità della previsione prima di usare il risultato.

Assicurati che la somma delle probabilità congiunte (p00, p01, p10, p11) sia esattamente 1.0 prima di iniziare. Calcola le probabilità marginali per X e Y sommando le righe e le colonne della tabella di contingenza. Tratta i termini dove p(x,y) è zero come zero, poiché il limite di p log(p) quando p tende a zero è zero. Il risultato è misurato in nats quando si usa il logaritmo naturale (ln) o in bit quando si usa il logaritmo in base 2.

References

Sources

Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
Wikipedia: Mutual Information
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience.
Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.

Overview

Variables

Derivation

Parti dalla definizione:

Calcola i marginali dalla tabella 2×2:

Somma i quattro termini (p00, p01, p10, p11):

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Entropy (Shannon)

KL Divergence (Bernoulli)

Information Gain

Frequently Asked Questions

Sources