Korelasyonu bulmak için ondalık sayılar kullanmak istatistiksel olarak geçerli bir yaklaşım mı?


10

İlişkilendirilmemiş 1.449 veri noktası örneğim var (r kare 0.006).

Verileri analiz ederken, bağımsız değişken değerlerini pozitif ve negatif gruplara bölerek, her grup için bağımlı değişkenin ortalamasında anlamlı bir fark olduğunu gördüm.

Bağımsız değişken değerleri kullanarak noktaları 10 kutuya (ondalık) bölmek, ondalık sayı ve ortalama bağımlı değişken değerleri (r-kare 0,27) arasında daha güçlü bir korelasyon olduğu görülmektedir.

İstatistikler hakkında fazla bir şey bilmiyorum, işte birkaç soru:

  1. Bu geçerli bir istatistiksel yaklaşım mı?
  2. En fazla sayıda kutuyu bulmak için bir yöntem var mı?
  3. Google'a bulabilmek için bu yaklaşım için uygun terim nedir?
  4. Bu yaklaşım hakkında öğrenilecek bazı giriş kaynakları nelerdir?
  5. Bu verilerdeki ilişkileri bulmak için kullanabileceğim diğer yaklaşımlar nelerdir?

Referans için ondalık veriler: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90

EDIT: İşte verilerin bir görüntü: Sanayi Momentumu bağımsız bir değişkendir, Giriş Noktası Kalitesi bağlıdır

Sanayi Momentumu bağımsız bir değişkendir, Giriş Noktası Kalitesi bağlıdır


Umarım cevabım (özellikle 2-4 yanıtları) tasarlandığı anlamda anlaşılmaktadır.
Glen_b-Monica'yı geri yükle

Amacınız bağımsız ve bağımlı arasındaki bir ilişki formunu keşfetmekse, bu iyi bir keşif tekniğidir. İstatistikçileri rahatsız edebilir, ancak her zaman endüstride kullanılır (örneğin kredi riski). Öngörülü bir model oluşturuyorsanız, yine özellik mühendisliği uygundur - eğer doğrulanmış bir eğitim setinde yapılırsa.
B_Miner

Sonucun "doğru bir şekilde doğrulandığından" emin olmak için herhangi bir kaynak sağlayabilir misiniz?
B Seven

"korelasyonlu değil (r-kare 0.006)" lineer korelasyonlu olmadıkları anlamına gelir . Belki başka bir korelasyon vardır. Ham verileri ( bağımsız veya bağımsız) çizdiniz mi?
Emil Friedman

Verileri planladım, ancak soruya eklemeyi düşünmedim. Ne kadar güzel bir fikir! Lütfen güncellenmiş soruya bakın.
B Seven

Yanıtlar:


9

0. Korelasyon (0.0775) küçüktür ancak (istatistiksel olarak) 0'dan önemli ölçüde farklıdır. Yani, gerçekten korelasyon varmış gibi görünüyor, sadece çok küçük / zayıf (eşdeğer olarak ilişki çevresinde çok fazla gürültü var).

1. Kutuların içindeki ortalama değer, verilerdeki ( σ/nortalamanın standart hatası etkisi), yani zayıf korelasyonu yapay olarak şişirirsiniz. Ayrıca bu (biraz) ilgili konuya bakın .

2. Daha az çöp kutusu, daha fazla verinin ortalaması alındığı ve gürültünün azaldığı anlamına gelir, ancak ne kadar genişlerse, ortalama her bölmede "daha bulanık" olur, çünkü ortalama oldukça sabit değildir - bir değiş tokuş vardır. Biri, doğrusallık ve dağılımın varsayımı altında korelasyonu optimize etmek için bir formül türetebilir.xBu, verilerdeki gürültünün bir şekilde sömürücü etkisini tam olarak dikkate almaz. Kolay yol, istediğinizi elde edene kadar çeşitli farklı çöp kutusu sınırlarını denemektir. Bölme genişliklerini ve bölme kökenlerini değiştirmeyi deneyin. Bu strateji zaman zaman yoğunluklarla şaşırtıcı derecede faydalı olabilir ve bu tür zaman zaman avantajlar işlevsel ilişkilere aktarılabilir - belki de tam olarak umduğunuz sonucu elde etmenizi sağlar .

3. Evet. Muhtemelen bu aramayla başlayın , sonra eşanlamlıları deneyin.

4. Bu , başlamak için iyi bir yerdir; istatistikçi olmayanlara yönelik çok popüler bir kitap.

5. (daha ciddi olarak) İlişkileri araştırmanın bir yolu olarak (yerel polinom regresyonu / çekirdek yumuşatma gibi) yumuşatmayı öneririm. Tam olarak ne istediğinize bağlıdır, ancak veri tarama sorununu önlediğiniz sürece, bir ilişkinin biçimini bilmediğinizde bu geçerli bir yaklaşım olabilir.


Oluşturan Ronald Coase gibi görünen popüler bir alıntı var :

"Verilere yeterince işkence yaparsanız, doğa her zaman itiraf edecektir."


Nokta 1 ve 2, OP'nin yaklaşımının neden geçerli bir istatistiksel yaklaşım olmadığının iyi açıklamalarıdır , ancak Nokta 0 (zayıf korelasyon) konusunda ikna etmek yararlı bir buluşsal yöntemdir.
Esad Ebrahim

9

Belki bir keşif aracından faydalanırsınız. Verilerin x koordinatının ondalık sayılarına bölünmesi, bu ruhla gerçekleştirilmiş gibi görünmektedir. Aşağıda açıklanan değişikliklerle mükemmel bir yaklaşımdır.

Birçok iki değişkenli keşif yöntemi icat edilmiştir. John Tukey ( EDA , Addison-Wesley 1977) tarafından önerilen basit bir örnek onun "gezici şematik çizimidir". X-koordinatını bölmelere ayırırsınız, her bir bölmenin medyanında karşılık gelen y verisinin dikey bir kutu grafiğini dikersiniz ve kutu grafiklerinin anahtar parçalarını (medyanlar, menteşeler vb.) Eğrilere (isteğe bağlı olarak düzleştirme) bağlarsınız. Bu "gezici izler", verilerin iki değişkenli dağılımının bir resmini sunar ve korelasyonun, ilişkinin doğrusallığının, aykırı değerlerin ve marjinal dağılımların görsel olarak değerlendirilmesine ve ayrıca doğrusal olmayan herhangi bir regresyon fonksiyonunun sağlam tahminine ve uygunluk değerlendirmesine olanak tanır .

Bu fikre, Tukey, boxplot fikriyle tutarlı olarak, veri dağılımını araştırmanın iyi bir yolunun, ortadan başlamak ve dışarı doğru çalışmak, gittikçe veri miktarını yarıya indirmek olduğu düşüncesini ekledi. Yani, kullanılacak kutuların eşit aralıklı miktarlarda kesilmesi gerekmez, bunun yerine noktalardaki miktarları yansıtmalıdır.2k ve 12k için k=1,2,3,.

Değişken çöp kutusu popülasyonlarını görüntülemek için her kutu grafiğinin genişliğini temsil ettiği veri miktarıyla orantılı hale getirebiliriz.

Ortaya çıkan gezici şematik çizim böyle bir şeye benzeyecekti. Veri özetinden geliştirilen veriler, arka planda gri noktalar olarak gösterilir. Bunun üzerine gezici şematik çizim, beş iz renkli ve kutu grafikler (gösterilen herhangi bir aykırı değerler dahil) siyah beyaz olarak çizilmiştir.

şekil

Sıfıra yakın korelasyonun doğası hemen netleşir: veriler etrafta dolanır. Merkezlerine yakın,x=4 için x=4, güçlü bir pozitif korelasyonları var. Aşırı değerlerde, bu veriler bütünü negatif olma eğilimi gösteren eğrisel ilişkiler sergiler. Net korelasyon katsayısı (0.074bu veriler için) sıfıra yakın. Bununla birlikte, "neredeyse hiç korelasyon yok" veya "önemli ama düşük korelasyon" olarak, eski fırında kafasında ve buzdolabında ayaklarıyla mutlu olan istatistikçi hakkında eski şakada aynı hatayı sahtekârlık olarak yorumlamakta ısrar etmek, çünkü ortalama sıcaklık rahattı. Bazen tek bir sayı durumu tanımlamak için yeterli olmaz.

Benzer amaçlara sahip alternatif keşif araçları arasında, pencerelenmiş verilerin sağlam pürüzsüzleştirilmesi ve bir dizi kantil kullanarak kantil regresyonlara uyması sayılabilir. Bu hesaplamaları gerçekleştirmek için yazılımın hazır bulunmasıyla, yürütülmesi belki de gezici bir şematik izden daha kolay hale gelmiştir, ancak aynı basitlikten, yorumlama kolaylığından ve geniş uygulanabilirliğe sahip değildirler.


Aşağıdaki Rkod şekli üretti ve orijinal verilere çok az değişiklik yaparak veya hiç değişiklik yapılmadan uygulanabilir. (Tarafından yapılan bplt(çağrılan bxp) uyarıları dikkate almayın: çizilecek aykırı olmadığında şikayet eder.)

#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
            xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010", 
     main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
  invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
                     n=b$n[i],
                     conf=b$conf[,i, drop=FALSE],
                     out=b$out[b$group==i],
                     group=1,
                     names=b$names[i]), add=TRUE, 
                boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins, 
                at=x.binmed[i]))
}

colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,], 
                                             method="natural"), col=colors[i], lwd=2))

@EngrStudent Kodu çalıştırmadan önce lütfen bu yazının metnini okuyun. Bu uyarıdan bahsedilir ve açıklanır.
whuber

Bu vektörün nereden geldiğini anlamıyorum c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6), bu oluşturuluyor ve verilere bağlı ( x)? Siz bahsediyorsunuz 2^*(-k)ama bu ilgili değil.
Maximilian

@Max O vektör bu özel örneği oluşturur.
whuber

tamam, ama rakamları nasıl yordunuz? Bu açıkça yanlış:k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))
Maximilian

@Max "açıkça yanlış" ile ne demek istediğini anlayamıyorum. Koduma atıfta bulunamazsınız: bir kontrol olarak, onu yeniden çalıştırdım ve rakamı her ayrıntıyla yeniden üretti.
whuber

6

Binning'in soruna bilimsel bir yaklaşım olduğuna inanmıyorum. Bilgi kaybetme ve keyfidir. Rütbe (sıralı; yarı parametrik) yöntemler çok daha iyidir ve bilgi kaybetmezler. Biri ondalık binmeye yerleşecek olsa bile, sadece verilerdeki bağlar söz konusu olduğunda kantillerde kullanılan çok sayıda tanım nedeniyle yöntem hala keyfi ve başkaları tarafından tekrarlanamaz. Ve yukarıdaki güzel veri işkence yorumunda da belirtildiği gibi, Howard Wainer, aynı veri kümesinden olumlu bir ilişki oluşturabilecek kutuları ve negatif bir ilişki oluşturabilecek kutuları nasıl bulacağını gösteren güzel bir makaleye sahiptir:

 @Article{wai06fin,
   author =          {Wainer, Howard},
   title =       {Finding what is not there through the unfortunate
    binning of results: {The} {Mendel} effect},
   journal =     {Chance},
   year =        2006,
   volume =      19,
   number =      1,
   pages =       {49-56},
   annote =      {can find bins that yield either positive or negative
    association;especially pertinent when effects are small;``With four
    parameters, I can fit an elephant; with five, I can make it wiggle its
    trunk.'' - John von Neumann}
 }

Şüphelendiğim şey buydu. Farklı sayıda kutu seçerseniz, aradığınızı göstermek için en iyi korelasyonu bulabilirsiniz. Ancak sonuçlar çoğaltılamaz veya bilimsel olarak geçerli olmaz. Sıralama hakkında herhangi bir giriş kaynağı biliyor musunuz?
B Seven

3
Bu, aşırı derecede aşırı bir pozisyon gibi görünüyor. Tabii ki rütbe tabanlı yöntemler de bilgileri kaybeder: gerçek değerler hakkındaki tüm bilgileri atarlar. Bilgi kaybının endişe kaynağı olup olmadığı sorusu neden analiz yapılıyor? Keşif ve keşif içinse, çeşitli rehberli binning formları iyi bir iş çıkarabilir, oysa her şeyi rütbe ile değiştirmek ilişkileri gizleyebilir ve bozabilir. Doğrulama veya hipotez testi içinse, sözleriniz daha genel olarak uygulanabilir ve savunulabilir olacaktır.
whuber

2
Buna gerçekten katılmıyorum. Sıralama tabanlı yöntemlerle kaybedilen bilgi türü minimum düzeydedir (ör.π3πGauss artığı durumunda) ve daha fazla varsayım yüklü yöntemlere göre bilgi kazanabilirler . Ortalama ve miktarları tahmin etmek için yarı parametrik bir model (örneğin, orantılı olasılık modeli) kullanmak zor değildir.Y|X. Bilgi kaybı, keşif sırasında (önemli bir şeyi kaçırabilirsiniz) veya resmi analiz sırasında (güç ve hassas kayıp ve keyfilik) neredeyse her zaman kötü bir şeydir.
Frank Harrell

2

Gözlenen X'e ("Giriş Noktası Kalitesi") dayalı olarak verilerin ondalıklara bölünmesi, hem X hem de Y'nin hataya maruz kaldığı durumlar için önce Wald ve daha sonra diğerleri tarafından önerilen eski bir yöntemin genelleştirilmesi gibi görünmektedir. (Wald verileri iki gruba ayırdı. Nair & Shrivastava ve Bartlett üçe ayırdılar.) Hoaglin, Mosteller ve Tukey tarafından düzenlenen sağlam ve Keşif Veri Analizini Anlama bölüm 5C'de açıklanmıştır (Wiley, 1983). Ancak, o zamandan beri böyle bir "Ölçüm Hatası" veya "Değişken Modellerde Hata" ile ilgili birçok çalışma yapılmıştır. İncelediğim ders kitapları Ölçüm Hatası: John Buonaccorsi'nin (CRC Press,

Durumunuz biraz farklı olabilir çünkü dağılım grafiğiniz beni her iki gözlemin de rasgele değişken olduğundan şüpheleniyor ve her birinin ölçüm hatası içerip içermediğini bilmiyorum. Değişkenler neyi temsil eder?


Giriş Noktası Kalitesi, bir hisse senedinin belirli bir zamanda kısa vadede ne kadar yükseldiği veya düştüğüdür. Endüstri Momentum, aynı zamanda stok için sektörde bir "momentum" ölçüsüdür. Hipotez, endüstri momentumu ile hisse senedinin gelecekteki fiyatı arasında bir korelasyon olduğudur.
B Seven

1
Genellikle yanıtı dikey eksene koyarız. Görsel inceleme, gerçek bir korelasyon olsa bile, giriş noktası kalitesindeki değişimin onu oldukça işe yaramaz hale getirdiğini göstermektedir. Ancak hisse senedi fiyatları ile uğraştığınızdan, zaman serisi söz konusu olduğundan işler daha da karmaşıklaşıyor.
Emil Friedman

2

Localgauss paketini bunun için çok yararlı buldum. https://cran.r-project.org/web/packages/localgauss/index.html

Paket içerir

Yerel Gauss parametrelerini tahmin etmek ve görselleştirmek için hesaplama rutinleri. Lokal Gauss parametreleri, iki değişkenli verilerdeki doğrusal olmayan bağımlılığın karakterizasyonu ve test edilmesi için faydalıdır.

Misal:

library(localgauss)
x=rnorm(n=1000)
y=x^2 + rnorm(n=1000)
lgobj = localgauss(x,y)
plot(lgobj)

Sonuç:

resim açıklamasını buraya girin

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.