Bu Dağılım Grafiğini nasıl yorumlayabilirim?


12

Ben x ekseni üzerinde kişi sayısına ve y ekseni üzerinde medyan maaş eşit örnek boyutu olan bir dağılım grafiği var, ben örnek boyutu medyan maaş üzerinde herhangi bir etkisi olup olmadığını bulmaya çalışıyorum.

Bu konu:

resim açıklamasını buraya girin

Bu çizimi nasıl yorumlayabilirim?


3
Mümkünse, her iki değişkenin de dönüşümüyle çalışmanızı öneririm. Değişkenlerden hiçbirinde sıfır yoksa, log-log ölçeğine bir göz atın
Glen_b -Reinstate Monica

@Glen_b üzgünüm, belirttiğiniz terimlere aşina değilim, sadece arsaya bakarak, iki değişken arasında bir ilişki kurabilir misiniz? tahmin edebilirsiniz 1000 kadar örnek boyutu için aynı örnek boyutu değerleri için herhangi bir ilişki yoktur birden fazla medyan değerleri vardır. 1000'den büyük değerler için ortalama maaş azalıyor gibi görünüyor. Ne düşünüyorsun ?
Aynı

Bunun için açık bir kanıt görmüyorum, bu bana oldukça düz görünüyor; belirgin değişiklikler varsa, muhtemelen örneklemin alt kısmında devam eder. Verilere mi, yoksa yalnızca grafiğin görüntüsüne mi sahipsiniz?
Glen_b

4
Medyanı n rastgele değişkenin medyanı olarak görüyorsanız, örneklem büyüklüğü arttıkça medyan varyasyonunun azalması mantıklıdır. Bu, arsanın sol tarafındaki geniş yayılımı açıklayacaktır.
JAD

2
"1000'e kadar örnek boyutu için aynı örnek boyutu değerleri için bir ilişki yoktur, birden fazla medyan değeri vardır" ifadesi yanlış.
Peter Flom - Monica'yı eski durumuna döndürün

Yanıtlar:


9

" Öğrenin " verileri araştırdığınızı gösterir . Resmi testler gereksiz ve şüpheli olacaktır. Bunun yerine, verilerde ne olabileceğini ortaya çıkarmak için standart keşifsel veri analizi (EDA) tekniklerini uygulayın.

Bu standart teknikler arasında yeniden ifade etme , kalıntı analizi , sağlam teknikler (EDA'nın "üç R'si") ve John Tukey tarafından klasik kitabı EDA'da (1977) açıklanan verilerin düzeltilmesi yer alır . Bunlardan bazılarını bağımsız değişkenler için Box-Cox benzeri dönüşümdeki görevimde nasıl yürüteceğim ? ve Doğrusal regresyonda, gerçek değerler yerine bağımsız bir değişkenin günlüğünü kullanmak ne zaman uygundur? , diğerleri arasında .

Sonuç olarak, log-log eksenlerini değiştirerek (her iki değişkeni etkili bir şekilde yeniden ifade ederek), verileri çok agresif olmayan bir şekilde yumuşatarak ve göstereceğim gibi neyi kaçırmış olabileceğini kontrol etmek için pürüzsüzün kalıntılarını inceleyerek çok şey görülebilir.

İşte verilerde değişen doğruluk derecelerine sahip birkaç pürüzsüzlüğü inceledikten sonra - çok fazla ve çok az düzgünleştirme arasında iyi bir uzlaşma gibi görünen bir pürüzsüz ile gösterilen veriler. İyi bilinen sağlam bir yöntem olan Loess'i kullanır (dikey olarak dışarıdaki noktalardan çok fazla etkilenmez).

Log-log dağılım grafiği

Dikey ızgara 10.000 adımdadır. Pürüzsüz ,Grad_median numune boyutu ile bazı varyasyonlar önermektedir : örnek boyutları 1000'e yaklaştıkça düşüyor gibi görünüyor. (Pürüzsüz uçları güvenilir değildir - özellikle örnekleme hatasının nispeten büyük olması beklenen küçük numuneler için - bu yüzden Onları çok fazla okumaz.) Gerçek bir düşüşün bu izlenimi, yazılımın pürüzsüz etrafında çizdiği (çok kaba) güven bantları tarafından desteklenir: "kıpırdatmaları" bantların genişliğinden daha büyüktür.

0.220%

(A) örnek boyutu değiştikçe ek varyasyon paternleri olup olmadığı ve (b) yanıtın koşullu dağılımlarının - nokta konumlarının dikey dağılımları - tüm örnek boyutu değerleri arasında makul olarak benzer olup olmadığı veya bunların bazı yönlerinin (yayılmaları veya simetrileri gibi) değişip değişmeyeceği.

! [Şekil 2 Artıkların grafiği

0.0

Sonuç olarak, bu basit özet:

ortalama maaş 1000'e yakın numune boyutları için yaklaşık 10.000 daha düşüktür

verilerde ortaya çıkan ilişkileri yeterince yakalar ve tüm ana kategoriler arasında düzgün bir şekilde durur gibi görünür. Bunun önemli olup olmadığı - yani ek verilerle karşı karşıya kaldığında ayağa kalkıp kalkmayacağı - ancak bu ek veriler toplanarak değerlendirilebilir.


Bu işi kontrol etmek ya da daha ileri götürmek isteyenler için işte Rkod.

library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual := 
      residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) + 
  ggtitle("EDA of Median Salary vs. Sample Size",
          paste("Span of smooth is", signif(span, 2)))
print(g)

span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + 
  ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
          paste("Span of smooth is", signif(span, 2)))
print(g.r)

7

Glen_b, verilerin yeniden ölçeklenmesinin anlamlı olup olmadığını görmek için sample_size ve medyan maaşının logaritmasını almanızı önerir.

Örneklem büyüklüğü 1000'in üzerine çıktığında ortalama maaşın düştüğü inancına katılıyorum bilmiyorum. Hiç bir ilişki olmadığını söylemeye daha meyilli olurdum. Teoriniz bir ilişki olması gerektiğini öngörüyor mu?

Olası bir ilişkiyi değerlendirmenin başka bir yolu da verilere bir regresyon çizgisi sığdırmaktır. Alternatif olarak, düşük eğri de kullanabilirsiniz. Verilerinize her iki satırı da çizin ve bir şeyin alay edilip edilemeyeceğini görün (Bununla birlikte, aşırı derecede önemli bir şey olduğundan şüpheliyim).


3
Dağılım grafiği meta-analizlerde kullanılan bir huni grafiğine çok benzer. Benzer bir örneğe bakın . Dönüşüm hunisi bantlarının çizilmesi, herhangi bir ilişki olup olmadığını daha açık bir şekilde gösterecektir, bu örnekte biraz pozitif bir tane olabilir.
Andy W

6

Ayrıca bir ilişki olmadığını da kabul ediyorum. Orijinal dağılım grafiğinizi (solda) yeniden oluşturdum ve glen_b (sağda) tarafından önerilen log-log dağılım grafiğini yaptım.

resim açıklamasını buraya girin

Her ikisiyle de bir ilişki yok gibi görünüyor. Log dönüşümü yapılan veriler arasındaki korelasyon zayıftır (Pearson R = -.13) ve önemsizdir (p = .09). Ne kadar ekstra bilgi bağlı olarak var olan belki bazı zayıf negatif korelasyon görmek için bir sebep, ama bu bir abartma gibi görünüyor. Gördüğünüz herhangi bir görünür desenin burada görülen efektle aynı olduğunu tahmin ediyorum .

R=0.0022p=0.98


Grad-medyan ve grad-örneklem büyüklüğü arasındaki korelasyona baktığınız için teşekkür ederiz; Rakamlar arasındaki farktan çok şaşırdım!
famargar

0

Doğrusal bir gerilemeyi denemek size ilk cevapta önerildiği gibi bu ilişki hakkında bir şeyler öğretecektir. Bu çizim için python plus matplotlib kullandığınızdan, çözümden bir kod uzaktasınız.

Doğrusal regresyon çizgisini, Pearson korelasyon katsayısını ve p-değerini de görüntüleyen deniz doğumlu eklem grafiğini kullanabilirsiniz:

sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")

resim açıklamasını buraya girin

gördüğünüz gibi bir korelasyon yok. Bu son taslağa bakıldığında, x değişkeninin log-dönüşümü yararlı olacaktır. Hadi deneyelim:

df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")

resim açıklamasını buraya girin

Log-dönüşümü olsun ya da olmasın, korelasyonun küçük olduğunu ve hem p değeri hem de güven aralıklarının istatistiksel olarak anlamlı olmadığını açıkça görebilirsiniz.


3
Çok eğri koşullu dağılımların göstergeleri bunun iyi bir yaklaşım olmadığını göstermektedir. Ayrıca, örnek büyüklüğü dağılımının çarpıklığının, en büyük örnek büyüklüğünün regresyondaki bir eğilimin görünümünü kontrol etmesine neden olacağını gözlemlediğinizde, diğerlerinin neden verilerin ön dönüşümlerini önerdiğini göreceksiniz.
whuber

1
Tahmin veya spekülasyon yapmıyorum: sorudaki arsa bu özellikleri açıkça gösteriyor. Ayrıca , önerilen log-log dönüşümlerini uygulayarak başardıklarını gösteren R Greg Stacey tarafından oluşturulan grafiklere bakınız .
whuber

Verileri yeni buldum ve çalışmayı kendim yaptım - lütfen güncellenmiş cevaba bakın.
famargar

Çalışmanız not ettiğim iki probleme yenik düştü: "korelasyon yok" ifadesi, çarpık koşullu tepkilere ve yüksek regresör değerlerinin kaldıraçına hiçbir şekilde bağlı değildir. Özellikle, ne takılı hat ne de hata bantları güvenilir değildir.
whuber

Lütfen az önce eklediğim konuya bakınız; Umarım bu son yinelemede hiçbir şey eksik değilim.
famargar

-1

Bu grafik, merkezi boyut teoreminin bir gösterimi olarak çalışır ve burada örnek büyüklüğü arttıkça numuneler arasındaki değişkenlik azalır. Ayrıca maaş gibi güçlü bir değişkenle beklediğiniz şekil.


3
Bunlar ortak bir popülasyondan bağımsız örnekler değildir. Bu, CLT'nin alaka düzeyini oldukça sorunlu hale getirir.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.