ANOVA'da F ve p değerleri nasıl yorumlanır?


40

İstatistiklere yeniyim ve şu anda ANOVA ile ilgileniyorum. Kullanarak R'de ANOVA testi yapıyorum

aov(dependendVar ~ IndependendVar)

Ben - diğerleri arasında - bir F değeri ve bir p değeri alıyorum.

Boş hipotezim ( ) tüm grupların eşit olduğu yönünde.H0

F'nin nasıl hesaplandığı hakkında birçok bilgi var , ancak bir F istatistiğini nasıl okuyacağımı ve F ve p'nin nasıl bağlandığını bilmiyorum.

Yani benim sorularım:

  1. reddetmek için kritik F değerini nasıl belirlerim ?H0
  2. Her F karşılık gelen bir p değerine sahip midir, bu yüzden ikisi de temelde aynı anlamına gelir mi? (örneğin, , reddedilir)p<0.05H0

1
Komutları denediniz summary(aov(dependendVar ~ IndependendVar)))veya summary(lm(dependendVar ~ IndependendVar))? Tüm grup araçlarının birbirine eşit ve 0'a eşit mi, yoksa sadece birbirine mi?
RyanB,

evet denedim summary(aov...). Bunun için teşekkürler lm.*, bunu bilmiyordum :-) 0'a eşit olarak ne demek istediğinizi anlamadım. Eğer 0 Hipotezim için Hipotezin bir değere ihtiyacı olacak kadar kısa ve spesifik bir test edemedim. öyleyse bu durumda: sadece birbirlerine!
JanD

1
Sezgisel bir açıklama için, regresyon konusundaki Yhat bloguna bakın .
DataTx

Yanıtlar:


14

Sorularınıza cevap vermek için:

  1. Kritik F değerini bir F dağılımından bulabilirsiniz (burada bir tablo ). Bir örneğe bakın . Tek yönlü, iki yönlü, serbestlik dereceleri ve payda derecelerine karşı dikkatli olmalısınız.

  2. Evet.


F-testi gibi bir omnibus testinde bir veya iki yönlü karşılaştırmalardan bahsetmek anlamlı değildir.
Marcus Morrisey

3
Marcus Morrisey: Sanırım bir iki vuruşla bir iki kuyruğu karıştırıyorsunuz. F testi, seçilebilecek birden fazla "kuyruk" a sahip değildir, ancak test istatistiği oluşturulurken tek yönlü ANOVA'ya karşı iki yönlü ANOVA'ya dikkat edilmesi gerekir.
Emiller

29

F istatistiği, veriler için 2 farklı varyans ölçüm oranıdır. Eğer boş hipotez doğruysa, o zaman bu ikisi de aynı şeyin tahminidir ve oran 1 civarında olacaktır.

Pay, araçların varyansı ölçülerek hesaplanır ve eğer grupların gerçek araçları aynı ise o zaman bu, verilerin genel varyansının bir fonksiyonudur. Fakat eğer boş hipotez yanlışsa ve araçların hepsi eşit değilse, o zaman bu varyans ölçümü daha büyük olacaktır.

Payda, toplam popülasyon varyansının bir tahmini olan her bir grup için örnek varyansların ortalamasıdır (tüm grupların eşit varyansa sahip olduğu varsayılmaktadır).

Bu nedenle, tüm araçlar için boş değer eşit olduğunda, o zaman 2 ölçü (bazı serbestlik dereceleri için bazı ek terimlerle) benzer olacaktır ve oran 1'e yakın olacaktır. payda ve oran 1'den büyük olacaktır. Bu oranın F tablosundaki (veya R'de pf gibi bir fonksiyonla hesaplanması) aranması p değerini verecektir.

Bir p-değerinden ziyade bir reddetme bölgesi kullanmak isterseniz, R (veya başka bir yazılımda) F tablosunu veya qf fonksiyonunu kullanabilirsiniz. F dağılımının 2 serbestlik derecesi vardır. Pay serbestlik dereceleri, karşılaştığınız grupların sayısına dayanır (1-yol için eksi 1 sayısıdır) ve payda serbestlik dereceleri, gruplar içindeki gözlemlerin sayısına dayanır (1- için bu şekilde gözlem sayısı eksi grup sayısıdır). Daha karmaşık modeller için, özgürlük dereceleri daha karmaşık hale gelir, ancak benzer fikirleri takip edin.


Açıklama için teşekkürler! P-değerini görmek için bir tablodaki F değerini arayabilirsem, p ve F'nin H0 haklı ise analiz edilen sonuç gibi bir sonucun ortaya çıkma olasılığını ifade etmenin iki yolu olduğunu varsayalım.
JanD

2
Tüm parametrik istatistiklerde test istatistiği (bu durumda F) ile p değeri arasında doğrudan bir fonksiyonel bağlantı vardır. Bunlar kolaylık sağlamak için masaya yerleştirilmiş, ancak doğrudan hesaplanabilir. Test istatistiklerini (daha sezgisel olduğunu düşünüyorum) karşılaştırmak için kritik bir bölgenin sınırlarını bulmak için alfa'yı kullanabilir veya alfa ile karşılaştırılacak p değerini bulmak için hesaplanan test istatistiklerini kullanabilirsiniz. Her iki durumda da, bir alfabe seviyesi ve boş değer doğru olduğunda belirli bir dağılımı izleyen bir test istatistik formülü ile başlıyoruz.
Greg Snow

20

, ve kritik değer arasındaki ilişkiyi düşünmenin en iyi yolu bir resimledir:pFp

görüntü tanımını buraya girin

Buradaki eğri bir dağılımıdır, yani boş hipotezin doğru olup olmadığını göreceğimiz istatistiklerinin dağılımıdır . Bu şemada, gözlemlenen istatistiği siyah kesikli çizgiden dikey eksene olan mesafedir. değeri olan eğrinin altındaki alan, koyu mavi bir alandır sonsuza. Her değerinin benzersiz bir değerine karşılık gelmesi gerektiğine ve daha yüksek değerlerinin düşük değerlerine karşılık geldiğine dikkat edin .F F p F F p F pFFFpFFpFp

Boş hipotez altında dağıtım hakkında birkaç başka şey fark etmelisiniz:

1) Sıfır yaklaşan değerlerinin olasılığı düşüktür (bu her zaman doğru değildir, ancak bu örnekteki eğri için geçerlidir)F

2) Belli bir noktadan sonra, ne kadar büyükse , o kadar düşüktür. (Eğri sağa doğru gerilir.)F

Kritik değer bu diyagramda bir görünüm sağlar. sonsuzluğa eğri altındaki alan anlamlılık seviyesine eşittir (burada,% 5). Bunu söyleyebilir burada istatistik o daha az olduğu için hipotezini reddetmek için bir başarısızlıkla sonuçlanır , onun edilir değeri büyüktür .05 olduğunu. Bu özel örnekte, , fakat bunu elle hesaplamak için bir cetvel gerekecek :-)C F C p p = 0.175CCFCpp=0.175

dağılımının şeklinin, ANOVA için grup sayısına (eksi 1) ve gözlem sayısına (eksi grup sayısı) karşılık gelen serbestlik derecelerine bağlı olduğunu unutmayın . Genel olarak, eğrisinin genel "şekli" ilk sayı ile belirlenir ve "düzlüğü" ikinci sayı ile belirlenir. Yukarıdaki örnekte bir (4 grup) var, ancak (3 grup) ayarının belirgin şekilde farklı bir eğri ile sonuçlandığını göreceksiniz :F d f 1 = 3 d f 1 = 2FFdf1=3df1=2

görüntü tanımını buraya girin

Vikipedi'nin diğer türevlerini Wikipedia Wikipedia'da görebilirsiniz . Kayda değer bir şey, istatistiğinin bir oran olduğu için, sıfır hipotezi altında, yüksek serbestlik derecelerinde bile, büyük sayıların nadir olması. Bu, grup sayısına bölünmeyen ve temel olarak serbestlik dereceleriyle birlikte büyüyen istatistiklerinin aksinedir. (Aksi benzerdir anlamda normal dağılım elde edilir ise, skorlar türetilmiştir -Dağıtık istatistik.)χ 2 χ 2 F χ 2 z F t tFχ2χ2Fχ2zFtt

Yazmak istediğimden çok daha fazla, ama umarım sorularınızı da kapsar!

(Diyagramların nereden geldiğini merak ediyorsanız, masaüstü istatistik paketim Sihirbaz tarafından otomatik olarak oluşturulmuştur .)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.