MathematicsEstatística InferencialUniversity

Estatística t de Duas Amostras (Amostras Independentes)

Q: What are common mistakes with the Estatística t de Duas Amostras (Amostras Independentes) formula?

Assumir variâncias iguais quando os tamanhos ou distribuições das amostras diferem significativamente. Deixar de confirmar que as amostras são verdadeiramente independentes (por exemplo, usá-lo em dados pareados). Usar a fórmula de variância agrupada padrão em vez da versão não agrupada.

Esta estatística determina se a diferença entre as médias de dois grupos independentes é estatisticamente significativa quando as variâncias populacionais são desconhecidas.

Understand the formulaSee the free derivationOpen the full walkthrough

t = \frac{( x ˉ _{1} - x ˉ _{2} ) - ( μ _{1} - μ _{2} )}{\frac{s _{1}^{2}}{n _{1}} + \frac{s _{2}^{2}}{n _{2}}}

Open Full Walkthrough Try Calculator

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

Também conhecido como teste t de Welch, esta fórmula é usada para comparar as médias de duas amostras independentes sob a suposição de variâncias desiguais. Ela mede a distância entre a diferença observada das médias amostrais e a diferença populacional hipotetizada em unidades de erro padrão. O valor t resultante é então comparado com uma distribuição t para determinar o valor p.

When to use: Use este teste ao comparar as médias de dois grupos independentes quando os desvios padrão da população são desconhecidos e você não pode assumir variâncias iguais.

Why it matters: É uma ferramenta fundamental na pesquisa científica e no teste A/B, permitindo que os analistas infiram diferenças populacionais a partir de dados amostrais limitados sem assumir homogeneidade de variância.

Symbols

Variables

t = t-statistic, $\overset{x}{ˉ}$ _1 = Mean of sample 1, $\overset{x}{ˉ}$ _2 = Mean of sample 2, $s_{1}^{2}$ = Variance of sample 1, $s_{2}^{2}$ = Variance of sample 2

t

t-statistic

Variable

\overset{x}{ˉ}_{1}

Mean of sample 1

Variable

\overset{x}{ˉ}_{2}

Mean of sample 2

Variable

s_{1}^{2}

Variance of sample 1

Variable

s_{2}^{2}

Variance of sample 2

Variable

n_{1}

Size of sample 1

Variable

n_{2}

Size of sample 2

Variable

diff

Hypothesized difference

Variable

Walkthrough

Derivation

Derivação da Estatística de Teste t para Duas Amostras (Amostras Independentes)

Esta derivação utiliza as propriedades das distribuições amostrais para construir uma estatística de teste que segue uma distribuição t ao padronizar a diferença entre duas médias amostrais.

As duas amostras são independentes uma da outra.
As populações das quais as amostras são extraídas são aproximadamente normalmente distribuídas.
As variâncias populacionais são desconhecidas, necessitando o uso de variâncias amostrais como estimativas.

Definir a Distribuição Amostral da Diferença nas Médias

Como as médias amostrais de populações normais independentes são elas próprias normalmente distribuídas, sua diferença segue uma distribuição normal centrada na diferença das médias populacionais com uma variância combinada.

(\overset{x}{ˉ}_{1} - \overset{x}{ˉ}_{2}) \sim N (μ_{1} - μ_{2}, \frac{σ _{1}^{2}}{n _{1}} + \frac{σ _{2}^{2}}{n _{2}})

Note: A variância da diferença de duas variáveis independentes é a soma de suas variâncias individuais.

Padronização (Z-score)

Transformamos a diferença nas médias amostrais em uma variável normal padrão subtraindo o valor esperado e dividindo pelo erro padrão.

Z = \frac{( x ˉ _{1} - x ˉ _{2} ) - ( μ _{1} - μ _{2} )}{\frac{σ _{1}^{2}}{n _{1}} + \frac{σ _{2}^{2}}{n _{2}}} \sim N (0, 1)

Note: Este passo requer conhecimento das variâncias populacionais, que geralmente são desconhecidas.

Substituição de Variâncias Amostrais

Como as variâncias populacionais são desconhecidas, substituímos por variâncias amostrais $s_{1}^{2}$ e $s_{2}^{2}$ . Esta substituição converte a distribuição Z em uma distribuição t.

t = \frac{( x ˉ _{1} - x ˉ _{2} ) - ( μ _{1} - μ _{2} )}{\frac{s _{1}^{2}}{n _{1}} + \frac{s _{2}^{2}}{n _{2}}}

Note: Isso é conhecido como o teste t de Welch quando as variâncias são assumidas como desiguais; os graus de liberdade são aproximados via equação de Welch-Satterthwaite.

Result

t = \frac{( x ˉ _{1} - x ˉ _{2} ) - ( μ _{1} - μ _{2} )}{\frac{s _{1}^{2}}{n _{1}} + \frac{s _{2}^{2}}{n _{2}}}

Source: Welch, B. L. (1947). 'The generalization of 'Student's' problem when several different population variances are involved'.

Free formulas

Rearrangements

Solve for $\overset{x}{ˉ}_{1}$

Isolar $\overset{x}{ˉ}$ _1

\overset{x}{ˉ}_{1} = t \frac{s _{1}^{2}}{n _{1}} + \frac{s _{2}^{2}}{n _{2}} + \overset{x}{ˉ}_{2} + (μ_{1} - μ_{2})

Isole a primeira média amostral multiplicando pelo erro padrão e adicionando os outros termos.

Difficulty: 3/5

Solve for $\overset{x}{ˉ}_{2}$

Isolar $\overset{x}{ˉ}$ _2

\overset{x}{ˉ}_{2} = \overset{x}{ˉ}_{1} - (μ_{1} - μ_{2}) - t \frac{s _{1}^{2}}{n _{1}} + \frac{s _{2}^{2}}{n _{2}}

Rearranje a equação para isolar bar_ $x_{2}$ .

Difficulty: 3/5

Solve for $μ_{1}$

Isolar $μ_{1}$

μ_{1} = (\overset{x}{ˉ}_{1} - \overset{x}{ˉ}_{2}) - t \frac{s _{1}^{2}}{n _{1}} + \frac{s _{2}^{2}}{n _{2}} + μ_{2}

Rearranje a equação para isolar $μ_{1}$ .

Difficulty: 3/5

Solve for $μ_{2}$

Isolar $μ_{2}$

μ_{2} = μ_{1} - (\overset{x}{ˉ}_{1} - \overset{x}{ˉ}_{2}) + t \frac{s _{1}^{2}}{n _{1}} + \frac{s _{2}^{2}}{n _{2}}

Rearranje a equação para isolar $μ_{2}$ .

Difficulty: 3/5

Solve for $s_{1}$

Isolar $s_{1}$

s_{1} = n_{1} ([\frac{( x ˉ _{1} - x ˉ _{2} ) - ( μ _{1} - μ _{2} )}{t}]^{2} - \frac{s _{2}^{2}}{n _{2}})

Isole o primeiro termo de variância da amostra elevando ambos os lados ao quadrado após o isolamento algébrico.

Difficulty: 5/5

Solve for $s_{2}$

Isolar $s_{2}$

s_{2} = n_{2} ([\frac{( x ˉ _{1} - x ˉ _{2} ) - ( μ _{1} - μ _{2} )}{t}]^{2} - \frac{s _{1}^{2}}{n _{1}})

Isolar o termo de variância da segunda amostra seguindo etapas semelhantes a $s_{1}$ .

Difficulty: 5/5

Solve for $n_{1}$

Isolar $n_{1}$

n_{1} = \frac{s _{1}^{2}}{[ \frac{( x ˉ _{1} - x ˉ _{2} ) - ( μ _{1} - μ _{2} )}{t} ] ^{2} - \frac{s _{2}^{2}}{n _{2}}}

Rearranje a equação para isolar $n_{1}$ .

Difficulty: 5/5

Solve for $n_{2}$

Isolar $n_{2}$

n_{2} = \frac{s _{2}^{2}}{[ \frac{( x ˉ _{1} - x ˉ _{2} ) - ( μ _{1} - μ _{2} )}{t} ] ^{2} - \frac{s _{1}^{2}}{n _{1}}}

Rearranje a equação para isolar $n_{2}$ .

Difficulty: 5/5

The static page shows the finished rearrangements. The app keeps the full worked algebra walkthrough.

Why it behaves this way

Intuition

Imagine duas distribuições de probabilidade distintas em forma de sino flutuando em uma reta numérica. O numerador mede a distância física entre seus picos (centros). O denominador atua como uma 'régua' que diminui ou expande com base na dispersão (incerteza/variância) das duas distribuições; a estatística t é o número de 'comprimentos de régua' pelos quais os dois picos são separados.

Term

estatística t

Uma relação sinal-ruído: informa a quantos erros padrão a diferença observada está da diferença hipotética.

Term

Diferença na amostra significa

O 'sinal' ou a diferença bruta observada entre os resultados médios dos dois grupos.

Term

Diferença hipotética nas médias populacionais

A 'linha de base nula'; geralmente zero, representando a suposição de que não há diferença real entre os grupos.

Term

Soma dos erros padrão quadrados

O 'ruído' total ou incerteza em nossa estimativa, combinando o quanto cada grupo varia (s²) dimensionado por quantos pontos de dados temos (n).

Signs and relationships

x̄₁ - x̄₂: A subtração define a direção da diferença; um resultado positivo indica que a média do primeiro grupo é maior, enquanto negativo indica que o segundo é maior.
Raiz quadrada do denominador: Somamos as variâncias (s²/n) em vez dos desvios padrão porque as variâncias são aditivas; tirar a raiz quadrada converte a variância total de volta nas mesmas unidades que a média (erro padrão).

One free problem

Practice Problem

Dois grupos são testados. Grupo 1: média=50, $s^{2}$ =10, n=20. Grupo 2: média=45, $s^{2}$ =12, n=25. Assumindo que a diferença hipotetizada (mu1-mu2) é 0, qual é a estatística t?

Hint: Calcule o denominador somando s1^2/n1 e s2^2/n2, depois tire a raiz quadrada do resultado.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Um pesquisador médico compara o tempo médio de recuperação de pacientes usando um novo medicamento versus um grupo placebo para ver se o medicamento impacta significativamente a recuperação.

Study smarter

Tips

Sempre verifique a normalidade se os tamanhos das amostras forem pequenos (n < 30).
Use a equação de Welch-Satterthwaite para calcular os graus de liberdade para este teste.
Certifique-se de que as amostras são independentes, o que significa que a seleção de um sujeito não influencia a seleção de outro.

Avoid these traps

Common Mistakes

Assumir variâncias iguais quando os tamanhos ou distribuições das amostras diferem significativamente.
Deixar de confirmar que as amostras são verdadeiramente independentes (por exemplo, usá-lo em dados pareados).
Usar a fórmula de variância agrupada padrão em vez da versão não agrupada.

Common questions

Frequently Asked Questions

Esta derivação utiliza as propriedades das distribuições amostrais para construir uma estatística de teste que segue uma distribuição t ao padronizar a diferença entre duas médias amostrais.

Use este teste ao comparar as médias de dois grupos independentes quando os desvios padrão da população são desconhecidos e você não pode assumir variâncias iguais.

É uma ferramenta fundamental na pesquisa científica e no teste A/B, permitindo que os analistas infiram diferenças populacionais a partir de dados amostrais limitados sem assumir homogeneidade de variância.

Assumir variâncias iguais quando os tamanhos ou distribuições das amostras diferem significativamente. Deixar de confirmar que as amostras são verdadeiramente independentes (por exemplo, usá-lo em dados pareados). Usar a fórmula de variância agrupada padrão em vez da versão não agrupada.

Um pesquisador médico compara o tempo médio de recuperação de pacientes usando um novo medicamento versus um grupo placebo para ver se o medicamento impacta significativamente a recuperação.

Sempre verifique a normalidade se os tamanhos das amostras forem pequenos (n < 30). Use a equação de Welch-Satterthwaite para calcular os graus de liberdade para este teste. Certifique-se de que as amostras são independentes, o que significa que a seleção de um sujeito não influencia a seleção de outro.

References

Sources

Rice, J. A. (2006). Mathematical Statistics and Data Analysis.
Welch, B. L. (1947). The generalization of 'Student's' problem when several different population variances are involved.
Welch, B. L. (1947). 'The generalization of 'Student's' problem when several different population variances are involved'.

Estatística t de Duas Amostras (Amostras Independentes)

Overview

Variables

Derivation

Definir a Distribuição Amostral da Diferença nas Médias

Padronização (Z-score)

Substituição de Variâncias Amostrais

Rearrangements

Intuition

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

One-Sample t-Test

Pooled Two-Sample t-Test

Frequently Asked Questions

Sources