Statistique du test t pour deux échantillons (échantillons indépendants)

Q: What are common mistakes with the Statistique du test t pour deux échantillons (échantillons indépendants) formula?

Erreur fréquente : Assuming equal variances when the sample sizes or distributions differ significantly. Ne pas confirmer que les échantillons sont vraiment indépendants (par exemple, en l'utilisant sur des données appariées). Erreur fréquente : Using the standard pooled variance formula instead of the unpooled version.

Core idea

Overview

Également connu sous le nom de test t de Welch, cette formule est utilisée pour comparer les moyennes de deux échantillons indépendants sous l'hypothèse de variances inégales. Elle mesure la distance entre la différence observée des moyennes d'échantillons et la différence de population hypothétique en unités d'erreur standard. La valeur t obtenue est ensuite comparée à une distribution t pour déterminer la valeur p.

When to use: Utilisez ce test lorsque vous comparez les moyennes de deux groupes indépendants lorsque les écarts types de la population sont inconnus et que vous ne pouvez pas supposer des variances égales.

Why it matters: C'est un outil fondamental en recherche scientifique et en tests A/B, permettant aux analystes de déduire des différences de population à partir de données d'échantillons limitées sans supposer l'homogénéité de la variance.

Symbols

Variables

t = t-statistic, $\overset{x}{ˉ}$ _1 = Mean of sample 1, $\overset{x}{ˉ}$ _2 = Mean of sample 2, $s_{1}^{2}$ = Variance of sample 1, $s_{2}^{2}$ = Variance of sample 2

t

t-statistic

Variable

\overset{x}{ˉ}_{1}

Mean of sample 1

Variable

\overset{x}{ˉ}_{2}

Mean of sample 2

Variable

s_{1}^{2}

Variance of sample 1

Variable

s_{2}^{2}

Variance of sample 2

Variable

n_{1}

Size of sample 1

Variable

n_{2}

Size of sample 2

Variable

diff

Hypothesized difference

Variable

Walkthrough

Derivation

Dérivation de la statistique de test t pour deux échantillons (échantillons indépendants)

Cette dérivation utilise les propriétés des distributions d'échantillonnage pour construire une statistique de test qui suit une distribution t en standardisant la différence entre deux moyennes d'échantillon.

Les deux échantillons sont indépendants l'un de l'autre.
Les populations à partir desquelles les échantillons sont tirés sont approximativement normalement distribuées.
Les variances de population sont inconnues, nécessitant l'utilisation des variances d'échantillon comme estimations.

1

Définir la distribution d'échantillonnage de la différence des moyennes

Puisque les moyennes d'échantillon de populations normales indépendantes sont elles-mêmes normalement distribuées, leur différence suit une distribution normale centrée sur la différence des moyennes de population avec une variance combinée.

(\overset{x}{ˉ}_{1} - \overset{x}{ˉ}_{2}) \sim N (μ_{1} - μ_{2}, \frac{σ _{1}^{2}}{n _{1}} + \frac{σ _{2}^{2}}{n _{2}})

Note: La variance de la différence de deux variables indépendantes est la somme de leurs variances individuelles.

2

Standardisation (Score Z)

Nous transformons la différence des moyennes d'échantillon en une variable normale standard en soustrayant la valeur attendue et en divisant par l'erreur type.

Z = \frac{( x ˉ _{1} - x ˉ _{2} ) - ( μ _{1} - μ _{2} )}{\frac{σ _{1}^{2}}{n _{1}} + \frac{σ _{2}^{2}}{n _{2}}} \sim N (0, 1)

Note: Cette étape nécessite la connaissance des variances de population, qui sont généralement inconnues.

3

Substitution des variances d'échantillon

Puisque les variances de population sont inconnues, nous les remplaçons par les variances d'échantillon $s_{1}^{2}$ et $s_{2}^{2}$ . Cette substitution convertit la distribution Z en une distribution t.

t = \frac{( x ˉ _{1} - x ˉ _{2} ) - ( μ _{1} - μ _{2} )}{\frac{s _{1}^{2}}{n _{1}} + \frac{s _{2}^{2}}{n _{2}}}

Note: Ceci est connu sous le nom de test t de Welch lorsque les variances sont supposées inégales ; les degrés de liberté sont approximés via l'équation de Welch-Satterthwaite.

Result

t = \frac{( x ˉ _{1} - x ˉ _{2} ) - ( μ _{1} - μ _{2} )}{\frac{s _{1}^{2}}{n _{1}} + \frac{s _{2}^{2}}{n _{2}}}

Source: Welch, B. L. (1947). 'The generalization of 'Student's' problem when several different population variances are involved'.

Free formulas

Rearrangements

Solve for $\overset{x}{ˉ}_{1}$

Isoler $\overset{x}{ˉ}$ _1

\overset{x}{ˉ}_{1} = t \frac{s _{1}^{2}}{n _{1}} + \frac{s _{2}^{2}}{n _{2}} + \overset{x}{ˉ}_{2} + (μ_{1} - μ_{2})

Isolez la moyenne du premier échantillon en multipliant par l'erreur type et en ajoutant les autres termes.

Difficulty: 3/5

Solve for $\overset{x}{ˉ}_{2}$

Isoler $\overset{x}{ˉ}$ _2

\overset{x}{ˉ}_{2} = \overset{x}{ˉ}_{1} - (μ_{1} - μ_{2}) - t \frac{s _{1}^{2}}{n _{1}} + \frac{s _{2}^{2}}{n _{2}}

Réarrange l'équation pour isoler bar_ $x_{2}$ .

Difficulty: 3/5

Solve for $μ_{1}$

Isoler $μ_{1}$

μ_{1} = (\overset{x}{ˉ}_{1} - \overset{x}{ˉ}_{2}) - t \frac{s _{1}^{2}}{n _{1}} + \frac{s _{2}^{2}}{n _{2}} + μ_{2}

Réarrange l'équation pour isoler $μ_{1}$ .

Difficulty: 3/5

Solve for $μ_{2}$

Isoler $μ_{2}$

μ_{2} = μ_{1} - (\overset{x}{ˉ}_{1} - \overset{x}{ˉ}_{2}) + t \frac{s _{1}^{2}}{n _{1}} + \frac{s _{2}^{2}}{n _{2}}

Réarrange l'équation pour isoler $μ_{2}$ .

Difficulty: 3/5

Solve for $s_{1}$

Isoler $s_{1}$

s_{1} = n_{1} ([\frac{( x ˉ _{1} - x ˉ _{2} ) - ( μ _{1} - μ _{2} )}{t}]^{2} - \frac{s _{2}^{2}}{n _{2}})

Isolez le premier terme de variance de l'échantillon en mettant au carré les deux côtés après l'isolation algébrique.

Difficulty: 5/5

Solve for $s_{2}$

Isoler $s_{2}$

s_{2} = n_{2} ([\frac{( x ˉ _{1} - x ˉ _{2} ) - ( μ _{1} - μ _{2} )}{t}]^{2} - \frac{s _{1}^{2}}{n _{1}})

Isolez le deuxième terme de variance d'échantillon en suivant des étapes similaires à $s_{1}$ .

Difficulty: 5/5

Solve for $n_{1}$

Isoler $n_{1}$

n_{1} = \frac{s _{1}^{2}}{[ \frac{( x ˉ _{1} - x ˉ _{2} ) - ( μ _{1} - μ _{2} )}{t} ] ^{2} - \frac{s _{2}^{2}}{n _{2}}}

Réarrange l'équation pour isoler $n_{1}$ .

Difficulty: 5/5

Solve for $n_{2}$

Isoler $n_{2}$

n_{2} = \frac{s _{2}^{2}}{[ \frac{( x ˉ _{1} - x ˉ _{2} ) - ( μ _{1} - μ _{2} )}{t} ] ^{2} - \frac{s _{1}^{2}}{n _{1}}}

Réarrange l'équation pour isoler $n_{2}$ .

Difficulty: 5/5

The static page shows the finished rearrangements. The app keeps the full worked algebra walkthrough.

Why it behaves this way

Intuition

Imaginez deux distributions de probabilité distinctes en forme de cloche flottant sur une droite numérique. Le numérateur mesure la distance physique entre leurs sommets (centres). Le dénominateur agit comme une « règle » qui rétrécit ou s'étend en fonction de l'étendue (incertitude/variance) des deux distributions ; la statistique t est le nombre de « longueurs de règle » par lequel les deux pics sont séparés.

Term

statistique t

Un rapport signal/bruit : il vous indique à combien d'erreurs types se trouve la différence observée par rapport à la différence hypothétique.

Term

Différence dans les moyennes de l'échantillon

Le « signal » ou la différence brute observée entre les résultats moyens des deux groupes.

Term

Différence hypothétique dans les moyennes de la population

La « ligne de base nulle » ; généralement zéro, ce qui représente l'hypothèse selon laquelle il n'y a pas de réelle différence entre les groupes.

Term

Somme des carrés des erreurs types

Le « bruit » total ou l'incertitude dans notre estimation, combinant la variation de chaque groupe (s²) en fonction du nombre de points de données dont nous disposons (n).

Signs and relationships

x̄₁ - x̄₂: La soustraction définit le sens de la différence ; un résultat positif indique que la moyenne du premier groupe est plus élevée, tandis qu'un résultat négatif indique que la moyenne du second est plus élevée.
Racine carrée du dénominateur: Nous additionnons les variances (s²/n) plutôt que les écarts types car les variances sont additives ; prendre la racine carrée reconvertit la variance totale dans les mêmes unités que la moyenne (erreur standard).

One free problem

Practice Problem

Deux groupes sont testés. Groupe 1 : mean=50, $s^{2}$ =10, n=20. Groupe 2 : mean=45, $s^{2}$ =12, n=25. En supposant que la différence hypothétique (mu1-mu2) est 0, quelle est la statistique t ?

Hint: Calculez le dénominateur en additionnant s1^2/n1 et s2^2/n2, puis prenez la racine carrée du résultat.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Un chercheur médical compare le temps de récupération moyen des patients utilisant un nouveau médicament par rapport à un groupe placebo pour voir si le médicament a un impact significatif sur la récupération.

Study smarter

Tips

Conseil : Always check for normality if sample sizes are small (n < 30).
Utilisez l'équation de Welch-Satterthwaite pour calculer les degrés de liberté pour ce test.
Assurez-vous que les échantillons sont indépendants, c'est-à-dire que la sélection d'un sujet n'influence pas la sélection d'un autre.

Avoid these traps

Common Mistakes

Erreur fréquente : Assuming equal variances when the sample sizes or distributions differ significantly.
Ne pas confirmer que les échantillons sont vraiment indépendants (par exemple, en l'utilisant sur des données appariées).
Erreur fréquente : Using the standard pooled variance formula instead of the unpooled version.

Keep going

Related Formulas

Common questions

Frequently Asked Questions

Cette dérivation utilise les propriétés des distributions d'échantillonnage pour construire une statistique de test qui suit une distribution t en standardisant la différence entre deux moyennes d'échantillon.

Utilisez ce test lorsque vous comparez les moyennes de deux groupes indépendants lorsque les écarts types de la population sont inconnus et que vous ne pouvez pas supposer des variances égales.

C'est un outil fondamental en recherche scientifique et en tests A/B, permettant aux analystes de déduire des différences de population à partir de données d'échantillons limitées sans supposer l'homogénéité de la variance.

Erreur fréquente : Assuming equal variances when the sample sizes or distributions differ significantly. Ne pas confirmer que les échantillons sont vraiment indépendants (par exemple, en l'utilisant sur des données appariées). Erreur fréquente : Using the standard pooled variance formula instead of the unpooled version.

Un chercheur médical compare le temps de récupération moyen des patients utilisant un nouveau médicament par rapport à un groupe placebo pour voir si le médicament a un impact significatif sur la récupération.

Conseil : Always check for normality if sample sizes are small (n < 30). Utilisez l'équation de Welch-Satterthwaite pour calculer les degrés de liberté pour ce test. Assurez-vous que les échantillons sont indépendants, c'est-à-dire que la sélection d'un sujet n'influence pas la sélection d'un autre.

References

Sources

Rice, J. A. (2006). Mathematical Statistics and Data Analysis.
Welch, B. L. (1947). The generalization of 'Student's' problem when several different population variances are involved.
Welch, B. L. (1947). 'The generalization of 'Student's' problem when several different population variances are involved'.

Overview

Variables

Derivation

Définir la distribution d'échantillonnage de la différence des moyennes

Standardisation (Score Z)

Substitution des variances d'échantillon

Rearrangements

Intuition

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

One-Sample t-Test

Pooled Two-Sample t-Test

Frequently Asked Questions

Sources