Bir boxplot kullanarak bir değişkenin varyansını nasıl çıkaracağımı merak ediyordum. En azından iki değişkenin kutu grafiğini gözlemleyerek aynı varyansa sahip olup olmadığına karar vermek mümkün mü?
Bir boxplot kullanarak bir değişkenin varyansını nasıl çıkaracağımı merak ediyordum. En azından iki değişkenin kutu grafiğini gözlemleyerek aynı varyansa sahip olup olmadığına karar vermek mümkün mü?
Yanıtlar:
Çok fazla kesin varsayım olmadan olmaz, hayır. Cevabın evet olduğunu varsayarsanız (sizi alkışladığımı sormak yerine), bahse girerim sizi bu (karşı) örnekle kandırabilirim:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
Oldukça benzer görünüyor, değil mi? Yine de !
Koddan anlaşılmadığı takdirde nüfus 2
:
-3.000 -2.650 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 2.650 3.000
Ve hayır, bu popülasyonun tam olarak simetrik olduğu için normal olduğunu çıkaramazsınız. İşte bir QQ nüfus grafiği 2
:
Tabii ki bana normal gelmiyor.
Düzenle - Yorumunuza yanıt:
Varyans sayısal bir istatistiktir. İki dağılımın varyansları tam anlamıyla eşitse, bu konuda söylemek zorunda olduğunuz hemen hemen hepsi budur. İki dağılım tam olarak normalse , yine, her ikisinin de sığacağı matematiksel bir tanım vardır . İki dağılım tam olarak normal veya varyans bakımından eşit değilse, başka türlü söylememelisiniz. Bunların yaklaşık olarak eşit veya normal olduğunu söylemek istiyorsanız, muhtemelen burada belirtmediğiniz amaçlarınıza uygun bir şekilde "yaklaşık yeterince" tanımlamanız gerekir. Dağıtım farklılıklarına duyarlılık, genellikle sizinki gibi soruları motive eden analizler arasında büyük farklılıklar gösterir. Örneğin,ikincisi verilen eşit numune boyutları ihlallerine oldukça sağlam olduğunu benim nüfus karşılaştırmak için bu testi tavsiye etmem bu yüzden,) 2
nüfusa 1
(normal dağılım).
Bu iyi yanıtlandı. Bu ekstra yorumlar yorum olarak gitmek için çok uzun (GÜNCELLEME: şimdi çok uzun).
Kesinlikle, bir dağıtımın değişkenliği hakkındaki bir kutu grafiğini okuyabileceğiniz tek şey, onun çeyrekler arası aralığı (kutunun uzunluğu veya yüksekliği) ve aralığıdır (ekranın uçları arasındaki uzunluk veya yükseklik).
Bir tahmin olarak, özdeş görünen kutu grafiklerinin çok benzer varyansları vardır, ancak dikkat edin. Çok farklı kutu pozisyonlarına veya kuyruklara (veya her ikisine) sahip kutu parsellerinin benzer varyanslara sahip olma olasılığı düşüktür, ancak bu imkansız değildir. Ancak kutu grafikleri aynı görünse bile, düz veya vanilya kutusu grafiğinde kutu içindeki değişkenlik veya bıyıklardaki gerçekten değişkenlik hakkında hiçbir bilgi almazsınız (genellikle kutu ve yakın çeyrek 1.5 IQR içindeki veri noktaları arasında gösterilen çizgiler) . Not: Kutu grafiklerinin birkaç varyantı vardır; yazarlar genellikle yazılımları tarafından kullanılan kesin kuralları belgelemede yetersizdir.
Kutu arsa popülaritesinin fiyatı vardır. Kutu grafikleri, birçok grubun veya değişkenin brüt özelliklerini göstermek için çok yararlı olabilir (örneğin 20 veya 30, bazen daha da fazla). Bence 2 veya 3 grubu karşılaştırmak için yaygın olarak kullanıldıklarından, satıldıklarına göre, diğer parseller aynı alanda akıllıca çok daha fazla ayrıntı gösterebilir. Doğal olarak, bu evrensel olarak takdir edilmezse yaygındır ve kutu grafiğinin çeşitli geliştirmeleri daha fazla ayrıntı gösterir.
Varyanslarla ciddi çalışma, orijinal verilere erişim gerektirir.
Bu geniş fırça ve daha fazla ayrıntı eklenebilir. Örneğin, medyanın kutu içindeki konumu bazen biraz daha fazla bilgi verir.
GÜNCELLEME
Sanırım çok daha fazla insan, bir kutu grafiğinden (kısa cevabın "dolaylı olarak, yaklaşık olarak, ve bazen "), bu yüzden @Christian Sauer tarafından istendiği gibi alternatifler hakkında daha fazla yorum ekleyeceğim.
Makul bir şekilde kullanılan histogramlar genellikle rekabetçidir. Freedman, Pisani ve Purves'in modern klasik tanıtım metni bunları baştan sona kullanır.
Nokta veya şerit grafikleri (grafikler) (ve diğer birçok isimle) olarak bilinen çeşitli şeyleri anlamak kolaydır. İstenirse binmeden sonra aynı noktalar istiflenebilir. Kalbinizin içeriğine medyan ve çeyrekler veya ortalama ve güven aralıkları ekleyebilirsiniz.
Kuantil araziler, görünüşe göre, edinilmiş bir tattır, ancak çeşitli şekillerde en çok yönlüdür. Burada tekrar sıralanan değerlerin (kümülatif olasılık) grafikleri ve verilerin dikkate alınan herhangi bir "marka adı" dağılımı (normal, üstel, gama, her neyse) olsaydı düz olacak kantil grafikleri ekliyorum. (CJ Geyer tarafından kullanılan "marka adı" referansı için @Scortchi'ye teşekkür ederiz.)
Ancak kapsamlı bir liste mümkün değildir. (Örneğin, ara sıra bir kök-yaprak gösteriminin, rakam tercihinin yaygın olduğu gibi verilerde önemli ayrıntıları görmek için tam olarak doğru olduğunu da ekleyeceğim.) Anahtar prensip, en iyi dağıtım planının izin vermesidir. ilginç ya da önemli olabilecek verilerdeki görünüşte imkansız, ince yapı algısı (modalite, taneciklik, aykırı değerler vb.) ve kaba yapı (seviye, yayılma, çarpıklık vb.).
Kutu grafikleri her türlü yapıyı göstermede eşit derecede iyi değildir. Bunlar olamaz ve olması amaçlanmamıştır. Keşifsel veri analizinde JW Tukey'in Reading, MA: Addison-Wesley (1977), Rayleigh'den bir kutu grafiğinin ana yapıyı tamamen gizleyen bimodal verilere bir örnek verdiğini işaret etmeye değer. Büyük bir istatistikçi olarak, kutu arsalarının her zaman cevap olmadığını çok iyi biliyordu.
Giriş metinlerinde yaygın olan tuhaf bir uygulama ANOVA'yı tartışırken, okuyucuları araçlar ve varyanslar (daha ziyade SD'ler) değil, medyanları ve çeyrekleri gösteren kutu çizimlerine bakmaya davet ediyor. Doğal olarak, verilere bakmak, bakmamaktan çok daha iyidir, ancak buna rağmen, daha uygun bir grafik gösterim, muhtemelen uygun verilerin +/- bazı uygun SE katları ile ham verilerin bir grafiğidir.
Saf bir yaklaşım:
Varyansları boxplot ile karşılaştırma hakkında: daha geniş kutular daha büyük varyanslar anlamına gelir, ancak bu size keşif anlayışı verir ve ayrıca bıyıkları ve aykırı değerleri de hesaba katmanız gerekir. Onay için hipotez kontrastı kullanmalısınız.