Karşılaştırmalar için keman grafikleri nasıl ölçeklendirilir?


14

Keman çizimleri çizmeye çalışıyorum ve bunları gruplar arasında ölçeklendirmek için kabul edilen en iyi uygulama olup olmadığını merak ediyorum. Burada R mtcarsveri setini kullanmayı denediğim üç seçenek var (1973'ten itibaren Motor Trend Cars burada bulundu ).

Eşit Genişlikler

Orijinal kağıdın * yaptığı ve R'nin vioplotyaptığı gibi görünüyor ( örnek ). Şekli karşılaştırmak için iyi.

Eşit Alan Keman Grafikleri

Eşit Alanlar

Her grafik bir olasılık grafiğidir ve bu nedenle her bir bölümün alanı bazı koordinat alanlarında 1,0'a eşit olmalıdır. Her gruptaki yoğunluğu karşılaştırmak için iyidir, ancak parseller kaplanırsa daha uygun görünür.

Eşit Genişlikli Keman Grafikleri

Ağırlıklı Alanlar

Eşit alan gibi, ancak gözlem sayısına göre ağırlıklandırılmıştır. 6-sil nispeten az inceliyor, çünkü o arabalardan daha azı var. Gruplar arasındaki yoğunluğu karşılaştırmak için iyi.

Ağırlıklı Alan Keman Grafikleri

* Keman Grafikleri: Bir Kutu Çizim Yoğunluğu İz Sinerjisi (DOI: 10.2307 / 2685478)


1
Arsaların amacı büyük ölçüde hangi çözümlerin uygun olduğunu belirleyecektir. O halde onlarla ne göstermeye çalışıyorsun?
whuber

@whuber Güzel soru, ancak doğrudan cevabım yok. EDA için bir grafik sağlamaya çalışıyorum ve iyi bir genel varsayılan (ve diğer seçenekler yüzey için yeterince yararlı olup olmadığını) arıyorum.
xan

Arsaları bazı varsayılanları kabul etmek yerine amaçlarınıza uyacak şekilde kontrol etmenizi öneririm .
whuber

"Ağırlıklı alanlar" sürümünüzün "bir popülasyonun alt gruplarını karşılaştırmak için iyi" olduğunu öneririm.
Henry

Dağılım şeklinin görsel etkisini korumak için eşit alanları tercih ederim. Ardından grafiği örnek boyutlarını gösteren termometrelerle tamamlayın veya yalnızca kemanların yanındaki örnek boyutlarının metin temsillerini kullanın.
Frank Harrell

Yanıtlar:


4

Kutu grafikleri bir dağılımın şematik özetleri için kullanılır. Keman grafikleri, Q1, Q2 ve Q3 kutularının çok çeşitli miktarlarla değiştirildiği kutu çizimleridir. Bu nedenle, kabul edilen uygulamanın gruplar arasında eşit genişlik kullanmak olduğunu düşünüyorum.

Ancak, iyi bir noktaya varıyorsunuz: gruplar arasındaki yoğunluklar nasıl karşılaştırılmalıdır? Yanıt, her gruba kendi nüfusu veya alt nüfus olarak bakmanıza bağlıdır.

ΣiPi=1


Keman grafikleri başlangıçta tanıtılmış ve hibrit kutu çizimi ve yoğunluk izi olarak tanımlanmıştır. Hızlı bir Google, pratikte keman arazileri olarak halka açık hale getirilen pek çok parselin kutuyu atladığını ve birçoğunun böyle bir nicelik göstermediğini gösterir. Yani, tanımlar burada çok açık.
Nick Cox

5

Dürüst olmak gerekirse, bence yanlış yöne yaklaşıyorsunuz. Her üç grafik de size değeri olan bilgileri açıkça söyler - aksi takdirde hangi grafiği kullanacağınızı düşünmezsiniz. Keşifsel veri analizi verilerinizi anlamakla ilgilidir. Beklentiye uygun olduğu yerde. Nerede olmadığı. Birden çok değişken üzerinde nasıl şekillenir.

Bütün noktası EDA yapmanın bizim varsayılan ki bunlara dağıtım veya colinearity vb varsayımlar, kullanılacak gidiyordu istatistiksel model de haklı olsun değerlendirmektedir. Bu itibarla, "varsayılan" EDA kavramı bir şekilde kusurludur.

Hepsine - ya da en azından sormak istediğiniz soru ile ilgili tüm çizimlere bakın. Kendinizi EDA aşamasında "İlginç olana" ve "Neyi görmezden geleceğim" e sokmak için hiçbir neden yok. Ve verileri sadece varsayılanlar aracılığıyla besliyorsak, ilk etapta gerçekten EDA değildir.


OP'nin EDA'dan sonra olup olmadığı hala net olmasa da (bana göre) EDA hakkında aydınlatıcı açıklamalar için +1 ...
chl

@chl OP'nin bazı yorumları onun peşinde olduğunu gösteriyor. Eğer sadece "bunlardan hangisi daha yararlı" ise, korktuğum cevap daha da belirsiz hale gelir "ne göstermek istersiniz?"
Fomite

Ah, bu yorumu kaçırdım ... Bu yüzden cevabınız tekrar +1 değerinde, ancak yapamam :(
chl

4

Peki ya bant genişliği? Bunu düşündün mü?

Pdf'yi almak için Yazılımınızın varsayılan ayarlarını kullanırsanız, büyük olasılıkla bir gauss çekirdeğinin en uygun bant genişliği için başparmak kuralını kullanırsınız. Bu 'optimal bant genişliği' her altkümeden farklı olabilir. Şimdi kendinize sorun, şekiller hala karşılaştırılabilir mi? Bu, çift Standartlar ile aynı değişkeni (çekirdek yoğunluğu tahmini) ölçmek olabilir.

Çekirdek yoğunluk tahmini için doğru bant genişliğini (bir tür çapraz doğrulama) elde etmek için açık kurallar geliştirilmiştir, ancak keman grafikleri için çoğunlukla göz ardı edilir. Numune boyutları çok farklı olduğunda önemli olabilir.

Şu anda bu sorunu yaşıyorum. Bu konu hakkında ne düşünüyorsun? Bunu nasıl çözersin? Herhangi bir yorum büyük beğeni topluyor.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.