Bir değer, değerler listesiyle karşılaştırıldığında ne kadar önemlidir? Çoğu durumda istatistiksel testler, bir örneklem grubunun bir popülasyonla karşılaştırılmasını içerir. Benim durumumda örnek bir değerle yapılır ve biz bunu popülasyonla karşılaştırırız.
İstatistiksel hipotez testinde belki de en temel sorunla karşılaşan bir amatörüm. Bu sadece bir test değil, yüzlerce test. Bir parametre alanı var ve her nokta için bir önem testi yapmak gerekir. Her parametre kombinasyonu için hem değer hem de arka plan listesi (nüfus) oluşturulur. Sonra bunu p-değeri ile sipariş ediyorum ve ilginç parametre kombinasyonları buluyorum. Aslında, bu p-val'in yüksek olduğu (parametre anlamlı olmayan) parametre kombinasyonlarının bulunması da önemlidir.
Tek bir test yapalım: Seçilen bir kümeden hesaplanmış bir değere ve rastgele bir eğitim seti seçerek hesaplanan bir arka plan değerler kümesine sahibim. Hesaplanan değer 0,35'tir ve arka plan kümesi (muhtemelen?) Normalde ortalama 0,25 ve çok dar bir std (e-7) ile dağıtılır. Aslında dağıtım hakkında bilgi yok, çünkü örnekleri başka bir şeyden hesaplanır, onlar bazı dağıtım rastgele sayı örnekleri değildir, bu yüzden arka plan bunun için doğru kelimedir.
Sıfır hipotezi, "örnek testinin ortalaması, hesaplanan değere eşittir 0.35" olacaktır. Bunu ne zaman Z testi veya T testi olarak düşünmeliyim? Değerin nüfus ortalamasından önemli ölçüde daha yüksek olmasını istiyorum, bu yüzden tek kuyruklu bir test.
Ne bir örnek olarak düşünmek için biraz karışık: Ya bir örnek (gözlem) ve nüfus olarak arka plan listesi var VEYA benim örnek arka plan listesidir ve ben bütün (örneklenmemiş) karşılaştırıyorum sıfır hipotezine göre aynı ortalamaya sahip olan popülasyon. Bu karar verildikten sonra, test sanırım farklı yönlere gidiyor.
Eğer bir T-testi ise, p-değerini nasıl hesaplayabilirim? R / Python / Excel işlevini kullanmak yerine kendim hesaplamak istiyorum (bunu nasıl yapacağımı zaten biliyorum), bu yüzden önce doğru formülü kurmalıyım.
Başlangıç olarak, bir T-testinin biraz fazla genel olduğundan şüpheleniyorum, çünkü benim durumumda T-testi örnek boyutuna bağlanacak ve burada ve s , örnek std ve nüfus std. Bu yüzden iki vakam var: ya benim örneklem büyüklüğüm, "sanırım" nüfusun boyutudur, bir Z testi ile uğraştığım anlamına gelir, ya da nüfus istatistikleri (n ve std) bilinmiyor, ancak dağılım bir şekilde yaklaştı ve gerçekten bir T-testi ile uğraşıyorum. Her durumda aşağıdaki sorularım:
- Bir p değerini nasıl hesaplayabilirim? (yani bir R / Python / Excel işlevi veya p-değer tablosu araması kullanmıyorum ama aslında bir formüle dayalı olarak hesaplıyoruz, çünkü ne yaptığımı bilmek istiyorum)
- Örnek boyutuma göre bir önem eşiğine nasıl karar verebilirim? (bir formül iyi olurdu)