Kişi farklı örneklem büyüklüklerinden ortalamaların karşılaştırmasını nasıl yorumlamalıdır?

Bir web sitesinde kitap puanları örneğini alın. A kitabı, ortalama 4.25 puanla 10.000 kişi ve varyansı ile değerlendirilmektedir . Benzer şekilde, B Kitabı 100 kişi tarafından derecelendirilmiştir ve ile 4.5 . $\sigma = 0.5$ $\sigma = 0.25$

Şimdi Kitap A'nın büyük örneklem büyüklüğü nedeniyle, "ortalama 4.25'e sabitlendi". Şimdi 100 kişi için, eğer daha fazla insan B Kitabı'nı okursa, ortalama not 4 veya 4.25'e düşebilir.

Farklı örneklerden gelen araçların karşılaştırmasını nasıl yorumlamalı ve birinin çıkarması / çıkarması gereken en iyi sonuçlar nelerdir?

Örneğin - B kitabının A kitabından daha iyi olduğunu söyleyebilir miyiz

t-test mean sample-size

— Doktora
kaynak

Özellikle derecelendirme içeriğiyle ilgileniyor musunuz?

— Jeromy Anglim

@JeromyAnglim - Hmmm ... muhtemelen. Emin değil. Bu en yaygın örnek. Aklında ne var?

— Doktora

Aşağıdaki Bayesian derecelendirme sistemleriyle ilgili cevabımı görün. Uygulanan derecelendirme bağlamları tipik olarak derecelendirilmiş yüzlerce veya binlerce nesneye sahiptir ve amaç genellikle mevcut bilgiler verilen nesne için en iyi derecelendirmeyi tahmin etmektir. Bu, iki grupla yapılan tıbbi bir deneyde söyleyebileceğiniz gibi basit iki grup karşılaştırmasından çok farklıdır.

— Jeromy Anglim

Yanıtlar:

Araçlarda farklılık olup olmadığını değerlendirmek için bir t testi kullanabilirsiniz. Farklı numune boyutları, t testi için bir soruna neden olmaz ve sonuçların herhangi bir özenle yorumlanmasını gerektirmez. Sonuçta, tek bir gözlemi bilinen bir dağılım ve ortalama ve SD olan sonsuz bir popülasyonla bile karşılaştırabilirsiniz; örneğin, 130 IQ’ya sahip biri, insanların% 97.7’sinden daha zekidir. Olsa Dikkat edilmesi gereken bir şey, belirli bir söz konusu olan (yani, toplam grup ise örnek büyüklüğü), elektrikli maksimuma 'in eşittir; Oldukça eşitsiz grup boyutları ile, her bir ek gözlemle daha fazla ek çözünürlük elde edemezsiniz. $N$ $n$

Güçle ilgili noktamı açıklığa kavuşturmak için, işte R için yazılmış çok basit bir simülasyon:

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

  n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
  n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

  n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
  n2b = rnorm(25, mean=.5, sd=1)

  n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
  n2c = rnorm(10, mean=.5, sd=1)

  power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
  power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
  power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

Her durumda olduğuna dikkat edin , ancak ilk durumda & , ikinci durumda & ve son durumda ve . Ayrıca, standartlaştırılmış ortalama fark / veri üretme sürecinin her durumda aynı olduğunu unutmayın. Bununla birlikte, test 50-50 numune için zamanın% 70'i 'anlamlı' iken, grup büyüklüğü 90-10 olduğunda güç 75-25 ile% 56 ve sadece% 33 idi. $N=100$ $n_1=50$ $n_2=50$ $n_1=75$ $n_2=25$ $n_1=90$ $n_2=10$

Ben bunu analojiyle düşünüyorum. Bir dikdörtgenin alanını bilmek istiyorsanız ve çevre sabitse, uzunluk ve genişlik eşitse (yani, dikdörtgen bir kare ise ) alan en üst düzeye çıkarılır . Öte yandan, uzunluk ve genişlik saptıkça (dikdörtgen uzadıkça) alan küçülür.

— dediklerinin - Monica Reinstate
kaynak

güç maksimize edildi ?? Anladığımdan emin değilim. Mümkünse bir örnek verebilir misiniz?

— Doktora

T testinin eşit olmayan örneklem büyüklüklerini ele almasının nedeni, her bir grup için ortalama tahminlerinin standart hatasını dikkate almasıdır. Grubun dağılımının standart sapması, grubun örneklem büyüklüğünün kareköküne bölünür. Nüfus standart sapmalarının eşit veya neredeyse aynı olması durumunda, daha büyük örneklem büyüklüğüne sahip olan başlangıç, daha küçük standart hataya sahip olacaktır.

— Michael Chernick

@gung - Bu simülasyonun hangi dilde yazıldığını gerçekten bildiğimden emin değilim. 'R' tahmin ediyorum? ve hala onu deşifre etmeye çalışıyorum :)

— Doktora

Kod R içindir. İzlemesini kolaylaştırmak için yorumda bulundum. R'ye sahipseniz kopyalayıp yapıştırabilir ve kendiniz çalıştırabilirsiniz; set.seed()işlevi aynı çıktıyı almak sigorta olacaktır. Hala takip edilmesi zorsa bana haber ver.

— gung - Reinstate Monica

Bu cevapta alanla yapılan benzetme sadece olup bitenleri ima etmiyor, tam olarak konuya geliyor . (Sabit bir toplam örneklem büyüklüğü - yani bir dikdörtgenin 'çevresinin' yarısının yarısı ) ve ('alan') ürününün en üst düzeye çıkardığı çok doğrudan bir anlam var. ortalamalar arasındaki farkın tahmini (ve dolayısıyla, sıfır olmadığını belirleme gücü). Cebirsel olarak önemsizdir, bu yüzden daha fazla uğraşmayacağım, ama daha uygun bir benzetme seçemezsiniz.

N = n_{1} + n_{2}

$N=n_1+n_2$

n_{1} \times n_{2}

$n_1\times n_2$

n_{1} n_{2}

$n_1n_2$

— Glen_b

@Gung tarafından t testine atıfta bulunulan cevaba ek olarak, Bayesian derecelendirme sistemleriyle ilgileniyor olabilirsiniz (örneğin, burada bir tartışma ). Web siteleri, bu tür sistemleri, alınan oy sayısına göre değişiklik gösteren sipariş öğelerini sıralamak için kullanabilir. Temel olarak, bu tür sistemler, tüm öğelerin ortalama derecesinin bir bileşiği olan bir derecelendirme ve belirli bir nesne için derecelendirme numunesi ortalaması atanarak çalışır. Derecelendirme sayısı arttıkça, nesne için ortalamaya atanan ağırlık artar ve tüm maddelerin ortalama derecelendirmesine atanan ağırlık azalır. Belki de bayesian ortalamalarını kontrol et .

Tabii ki, oy sahtekarlığı, zaman içindeki değişimler, vs. gibi çok çeşitli konularla ilgilendikçe işler daha da karmaşık hale gelebilir.

— Jeromy Anglim
kaynak

Tatlı. Hiç duymadım. Kesinlikle içine bakacağım. Belki de peşinde olduğum şey bu, sonuçta :)

— PhD