Açıklayıcı ve cevap değişkenleri regresyondan önce bağımsız olarak sıralanırsa ne olur?


302

Veri seti olduğunu varsayalım ile noktaları. Doğrusal bir regresyon yapmak istiyoruz, ancak önce X_i değerlerini ve Y_i değerlerini birbirlerinden bağımsız olarak sıralayarak veri kümesini (X_i, Y_j) oluşturacağız . Yeni veri setindeki regresyonun anlamlı bir yorumu var mı? Bunun bir adı var mı?n X i(Xi,Yi)nXi ( X i , Y, j )Yi(Xi,Yj)

Bunun aptalca bir soru olduğunu hayal ediyorum, özür dilerim, resmen istatistik konusunda eğitimli değilim. Aklımda bu tamamen verilerimizi mahveder ve gerileme anlamsızdır. Ancak menajerim, bunu yaptığı zaman (burada "daha iyi" daha öngörülü anlamına gelir) "çoğu zaman daha iyi gerileme" yaptığını söylüyor. Kendini kandırdığını hissediyorum.

EDIT: Tüm güzel ve sabırlı örnekleriniz için teşekkür ederiz. Ona @ RUser4512 ve @gung tarafından örnekleri gösterdim ve durgun kaldı. Sinirleniyor ve yoruluyorum. Kendimi çok üzülmüş hissediyorum. Muhtemelen yakında başka işler aramaya başlayacağım.


120
Ancak yöneticim bunu yaparken "çoğu zaman daha iyi gerileme" yaptığını söylüyor. Oh tanrım ...
Jake Westfall

56
Kendini utandırmak için hiçbir sebep yok !
Jake Westfall

36
"Bilim, olmasını istediğimiz şeydir." - Doktor Leo Spaceman.
Sycorax

52
Bu fikir karşılaştığım bir başkasıyla rekabet etmeli: Örneğiniz küçükse, aynı verinin birkaç kopyasıyla toplayın.
Nick Cox

47
Patronuna daha iyi bir fikrin olduğunu söylemelisin. Gerçek verileri kullanmak yerine sadece kendinizinkini yaratın çünkü modellemesi daha kolay olacaktır.
dsaxton

Yanıtlar:


147

Patronunun "daha akıllı" ne anlama geldiğini düşündüğünden emin değilim. Birçok insan yanlış olarak düşük değerlerinin daha iyi / daha öngörülü bir model olduğu anlamına gelir. Bu mutlaka doğru değil (bu bir noktaya işaret ediyor). Bununla birlikte, her iki değişkeni bağımsız olarak önceden sıralamak, daha düşük bir değeri garanti eder . Öte yandan, tahminlerini aynı işlem tarafından oluşturulan yeni verilerle karşılaştırarak bir modelin tahmin doğruluğunu değerlendirebiliriz. Bunu basit bir örnekte yapıyorum (kodlu ). pppR

options(digits=3)                       # for cleaner output
set.seed(9149)                          # this makes the example exactly reproducible

B1 = .3
N  = 50                                 # 50 data
x  = rnorm(N, mean=0, sd=1)             # standard normal X
y  = 0 + B1*x + rnorm(N, mean=0, sd=1)  # cor(x, y) = .31
sx = sort(x)                            # sorted independently
sy = sort(y)
cor(x,y)    # [1] 0.309
cor(sx,sy)  # [1] 0.993

model.u = lm(y~x)
model.s = lm(sy~sx)
summary(model.u)$coefficients
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)    0.021      0.139   0.151    0.881
# x              0.340      0.151   2.251    0.029  # significant
summary(model.s)$coefficients
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)    0.162     0.0168    9.68 7.37e-13
# sx             1.094     0.0183   59.86 9.31e-47  # wildly significant

u.error = vector(length=N)              # these will hold the output
s.error = vector(length=N)
for(i in 1:N){
  new.x      = rnorm(1, mean=0, sd=1)   # data generated in exactly the same way
  new.y      = 0 + B1*x + rnorm(N, mean=0, sd=1)
  pred.u     = predict(model.u, newdata=data.frame(x=new.x))
  pred.s     = predict(model.s, newdata=data.frame(x=new.x))
  u.error[i] = abs(pred.u-new.y)        # these are the absolute values of
  s.error[i] = abs(pred.s-new.y)        #  the predictive errors
};  rm(i, new.x, new.y, pred.u, pred.s)
u.s = u.error-s.error                   # negative values means the original
                                        # yielded more accurate predictions
mean(u.error)  # [1] 1.1
mean(s.error)  # [1] 1.98
mean(u.s<0)    # [1] 0.68


windows()
  layout(matrix(1:4, nrow=2, byrow=TRUE))
  plot(x, y,   main="Original data")
  abline(model.u, col="blue")
  plot(sx, sy, main="Sorted data")
  abline(model.s, col="red")
  h.u = hist(u.error, breaks=10, plot=FALSE)
  h.s = hist(s.error, breaks=9,  plot=FALSE)
  plot(h.u, xlim=c(0,5), ylim=c(0,11), main="Histogram of prediction errors",
       xlab="Magnitude of prediction error", col=rgb(0,0,1,1/2))
  plot(h.s, col=rgb(1,0,0,1/4), add=TRUE)
  legend("topright", legend=c("original","sorted"), pch=15, 
         col=c(rgb(0,0,1,1/2),rgb(1,0,0,1/4)))
  dotchart(u.s, color=ifelse(u.s<0, "blue", "red"), lcolor="white",
           main="Difference between predictive errors")
  abline(v=0, col="gray")
  legend("topright", legend=c("u better", "s better"), pch=1, col=c("blue","red"))

görüntü tanımını buraya girin

Sol üstteki grafik orijinal verileri gösterir. ve arasında bir ilişki var (viz., Korelasyon yaklaşık .). Sağ üstteki grafik, her iki değişkeni bağımsız olarak sıraladıktan sonra verilerin nasıl göründüğünü gösterir. Korelasyonun gücünün önemli ölçüde arttığını kolayca görebilirsiniz (şimdi yaklaşık ). Bununla birlikte, alt kısımlarda , orijinal (sıralanmamış) verilerde eğitilen model için tahmin hatalarının dağılımının daha yakın olduğunu görüyoruz . Orjinal verileri kullanan model için ortalama mutlak tahmin hatası , sıralanan veriler üzerinde eğitilen model için ortalama mutlak tahmin hatasıy .31 .99 0 1.1 1.98 y 68 %xy.31.9901.11.98- sadece iki kat daha büyük. Bu, sıralanmış veri modelinin tahminlerinin doğru değerlerden çok daha uzakta olduğu anlamına gelir. Sağ alt kadranda yer alan çizim bir nokta çizimdir. Orijinal verilerle ve sıralanmış verilerle öngörü hatası arasındaki farkları görüntüler. Bu, benzetilen her yeni gözlem için karşılık gelen iki öngörüyü karşılaştırmanıza olanak sağlar. Soldaki mavi noktalar, orijinal verilerin yeni değerine daha yakın olduğu zamanlar ve sağdaki kırmızı noktalar, sıralanan verilerin daha iyi tahminler verdiği zamanlardır. Orijinal verilerde eğitilen modelden , zamanın in üzerinde daha kesin tahminler vardı . y68%


Sıralama işleminin bu sorunlara ne derece neden olacağı, verilerinizde bulunan doğrusal ilişkinin bir işlevidir. Eğer ve arasındaki korelasyon zaten ise , sınıflamanın etkisi olmaz ve bu nedenle zararlı olmaz. Öte yandan, korelasyony 1,0 - 1,0xy1.01.0sıralama, ilişkiyi tamamen tersine çevirir ve modeli mümkün olduğunca yanlış yapar. Veriler orijinal olarak tamamen ilişkilendirilmemiş olsaydı, sıralama, ortaya çıkan modelin öngörücü doğruluğu üzerinde orta düzeyde ama yine de oldukça büyük, zararlı bir etkiye sahip olurdu. Verilerinizin tipik olarak ilişkili olduğunu belirttiğinizden, bu prosedürün kendine özgü zararlarına karşı bir koruma sağladığından şüpheleniyorum. Bununla birlikte, ilk önce sıralama kesinlikle zararlıdır. Bu olasılıkları araştırmak için, yukarıdaki kodu basitçe farklı değerler ile yeniden çalıştırabiliriz B1(tekrarlanabilirlik için aynı tohumu kullanarak) ve çıktıyı inceleyebiliriz:

  1. B1 = -5:

    cor(x,y)                            # [1] -0.978
    summary(model.u)$coefficients[2,4]  # [1]  1.6e-34  # (i.e., the p-value)
    summary(model.s)$coefficients[2,4]  # [1]  1.82e-42
    mean(u.error)                       # [1]  7.27
    mean(s.error)                       # [1] 15.4
    mean(u.s<0)                         # [1]  0.98
    
  2. B1 = 0:

    cor(x,y)                            # [1] 0.0385
    summary(model.u)$coefficients[2,4]  # [1] 0.791
    summary(model.s)$coefficients[2,4]  # [1] 4.42e-36
    mean(u.error)                       # [1] 0.908
    mean(s.error)                       # [1] 2.12
    mean(u.s<0)                         # [1] 0.82
    
  3. B1 = 5:

    cor(x,y)                            # [1] 0.979
    summary(model.u)$coefficients[2,4]  # [1] 7.62e-35
    summary(model.s)$coefficients[2,4]  # [1] 3e-49
    mean(u.error)                       # [1] 7.55
    mean(s.error)                       # [1] 6.33
    mean(u.s<0)                         # [1] 0.44
    

12
Cevabınız çok iyi bir noktaya değiniyor, ama belki de olması gerektiği kadar net değil. Bir meslekten olmayan kişinin (OP'nin yöneticisi gibi) sonunda tüm çizimlerin (R kodunu boşver) gerçekte neyi gösterip ima ettikleri açıkça belli değildir. IMO, cevabınız gerçekten bir veya iki açıklayıcı paragraf kullanabilir.
Ilmari Karonen

3
Yorumunuz için teşekkürler, @IlmariKaronen. Eklenecek şeyler önerebilir misiniz? Kodu olabildiğince açıklayıcı hale getirmeye çalıştım ve kapsamlı bir şekilde yorumladım. Ancak, artık bu şeyleri bu konularda tanıdık olmayan birinin gözüyle göremeyebilirim. Alttaki çizimleri tanımlamak için bir metin ekleyeceğim. Başka bir şey düşünebilirseniz, lütfen bana bildirin.
gung

13
+1 Bu hala önerilen durumu ele alan tek cevap: iki değişken zaten bir pozitif ilişki gösterdiğinde, yine de bağımsız olarak sıralanan değerleri gerilemek bir hatadır. Diğer tüm cevaplar dernek olmadığını ya da aslında olumsuz olduğunu varsayar. İyi örnekler olsalar da, uygulamadıklarından ikna edici olmayacaklar. Yine de hala eksik olduğumuz şey , hata yapısının utanç verici bir şekilde açık olduğu burada simüle edilenler gibi bir gut-seviye sezgisel gerçek-dünya veri örneğidir .
whuber

8
Değil + 1 R. Ortodoks ve atama için "=" kullanılarak sallandı edilen
dsaxton

@dsaxton, <-bazen kullanıyorum, fakat CV'deki amacım R kodunu mümkün olduğunca sahte kodlara yakın yazmaktır, böylece W / R tanımayan insanlar için =programlama dilleri arasında bir atama operatörü olarak oldukça evrenseldir. .
gung

103

Patronunuzu ikna etmek istiyorsanız, simüle edilmiş, rastgele, bağımsız verileriyle neler olduğunu gösterebilirsiniz . R ile:x,ygörüntü tanımını buraya girin

n <- 1000

y<- runif(n)
x <- runif(n)

linearModel <- lm(y ~ x)


x_sorted <- sort(x)
y_sorted <- sort(y)

linearModel_sorted <- lm(y_sorted ~ x_sorted)

par(mfrow = c(2,1))
plot(x,y, main = "Random data")
abline(linearModel,col = "red")


plot(x_sorted,y_sorted, main = "Random, sorted data")
abline(linearModel_sorted,col = "red")

Açıkçası, sıralanmış sonuçlar çok daha iyi bir gerileme sunuyor. Bununla birlikte, verileri üretmek için kullanılan işlem göz önüne alındığında (iki bağımsız örnek) birinin birinin diğerini tahmin etmek için kullanılması kesinlikle mümkün değildir.


8
Neredeyse tüm Internet gibi "reklamdan sonra" reklamlardan sonra :)
Tim

Bu iyi bir örnek, ancak onu ikna edeceğini düşünmüyor, çünkü verilerimizin sıralamadan önce pozitif bir korelasyonu var. Sıralama yalnızca ilişkiyi "güçlendirir" (yanlış olsa da).
keyfi kullanıcı,

17
@arbitraryuser: Eh, sıralı veri olacak her zaman olursa olsun orijinal veri ne vardı, eğer varsa, korelasyon, pozitif (iyi, negatif olmayan) bir korelasyon göstermektedir. Orijinal verinin zaten her zaman pozitif bir korelasyonu olduğunu biliyorsanız, o zaman "kazayla doğru" olur - ama o zaman, zaten zaten mevcut ve pozitif olduğunu biliyorsanız, neden korelasyon kontrolü yapmayı bile rahatsız etmiyorsunuz? Yöneticinizin çalıştığı test, her zaman "nefes alabilen havanın algılandığı" yazan bir "hava kalitesi dedektörü" gibi bir şeydir - nefes alabilen havanın olmadığı herhangi bir yere asla götürmediğiniz sürece mükemmel çalışır.
Ilmari Karonen

2
@arbitraryuser Daha fazla ikna edici bulabileceğiniz başka bir örnek ise x = 0: 50 ve y = 0: -50, -1 eğimine sahip mükemmel bir çizgi almaktır. Onları sıralarsanız, ilişki eğim 1 ile mükemmel bir çizgiye dönüşür. Gerçek şu ki, değişkenleriniz mükemmel bir muhalefette değişiyorsa ve yanlış anlaşmaya göre mükemmel bir anlaşmaya varmalarına dayanan bir politika reçetesi yaparsanız, Tamamen yanlış olanı yapıyorum.
John Rauser

99

Sezginiz doğrudur: bağımsız olarak sıralanan verilerin güvenilir bir anlamı yoktur, çünkü girdiler ve çıktılar gözlemlenen ilişkinin ne olduğundan ziyade rasgele birbirleriyle eşleştirilir.

Sıralanan verilerdeki gerilemenin güzel görünmesi (iyi) şansı vardır, ancak bağlamda anlamsızdır.

Sezgisel örnek: Bazı popülasyonlar için bir veri seti olduğunu varsayalım . Katkısız verilerin grafiği muhtemelen bir logaritmik veya güç işlevine benzeyecektir: daha sonraki ergenler için yavaşlayan çocuklar için daha hızlı büyüme oranları ve genç yetişkinler ve yaşlılar için "asimptotik" birisinin maksimum yüksekliğine yaklaşır.(X=age,Y=height)

Eğer artan düzende sıralarsak , grafik muhtemelen neredeyse doğrusal olacaktır. Bu nedenle, tahmin işlevi insanların yaşamları boyunca daha uzun boylu olmalarıdır. Bu tahmin algoritmasına para yatırmam. x,y


25
+ 1 - ama "esasen" düşürür ve "anlamsız" ifadesini tekrar vurgulardım.
whuber

12
OP'nin , verilerin karıştırılmasının aksine bağımsız olarak sıralandığını ifade ettiğini unutmayın . Bu, verilen işlemi uyguladıktan sonra gözlenen "ilişkinin" ne göreceği ile ilgili olarak, ince ancak önemli bir farktır.
kardinal

3
Eklediğin örnek ile kafam karıştı. Eğer yaş ve yüksekliğidir, ardından her iki değişken zaten sıralanır: kimsenin yaşı veya yükseklik şimdiye azalır. Yani sıralama hiç bir etkisi olmazdı. Bu örnekten hoşlandığını söyleyen @JakeWestfall için Cc. Açıklayabilir misin? xy
amip

12
@ amoeba Önemsiz veri kümesi: ortalama genç, 30'lu yaşların ortalarında NBA merkezi, yaşlı ortalama kadın. Tahmin algoritmasını sıraladıktan sonra, en eskisi en uzun olanıdır.
d0rmLife,

1
@amoeba Nasıl yorumlanabileceğini görüyorum, açıklığa kavuştururum.
d0rmLife,

40

Aslında, bunu gerçekten açık ve basit yapalım . Standart bir kapta 1 litre suyu ölçtüğüm bir deney yaptığımı ve zamanının bir fonksiyonu olarak kabında kalan su miktarına, buharlaşma nedeniyle su kaybına :Viti

Şimdi , sırasıyla saat ve litre olarak aşağıdaki ölçümleri varsayalım : Bu oldukça açık bir şekilde mükemmel korelasyonlu (ve varsayımsal) bir veridir. Fakat zaman ve hacim ölçümlerini sıralayabilseydim, Ve bu sıralı veri kümesinden bir sonuç olduğunu dahası zaman arttıkça, su artar hacmi ve gibi 1 litre suya başlayarak sen bekleyen 5 saat sonra alacağı 1'den fazla litre su. Bu olağanüstü değil mi? Orijinal verilerin söylediklerinin tam tersi bir sonuç değil, aynı zamanda yeni fizik keşfettiğimizi gösteriyor! (ti,Vi)

(0,1.0),(1,0.9),(2,0.8),(3,0.7),(4,0.6),(5,0.5).
(0,0.5),(1,0.6),(2,0.7),(3,0.8),(4,0.9),(5,1.0).

5
Güzel sezgisel örnek! Son satır hariç. Orijinal verilerle, zamanla negatif bir hacim elde edeceğiz, ki bu yeni fizik kadar. Gerçekten bir gerilemeyi tahmin edemezsin.
Jongsma

22

Bu, gerçek bir sanattır ve bazı insanları yollarındaki hataya ikna edebilmek için gerçek bir psikoloji anlayışı gerektirir. Yukarıdaki tüm mükemmel örneklerin yanı sıra, yararlı bir strateji bazen bir kişinin inancının kendisiyle bir tutarsızlığa yol açtığını göstermektir. Veya bu yaklaşımı deneyin. Patronunuzun, insanların Y görevinde nasıl bir performans sergiledikleri gibi, sahip oldukları X özniteliğinin ne kadar büyük bir ilgisi olmadığı gibi, inandıkları bir şeyi öğrenin. Patronunuzun kendi yaklaşımının, X ile Y arasında güçlü bir ilişkinin sonucuyla sonuçlanacağını gösterin. Siyasi / ırksal / dini inançlardan faydalanın.

Yüz geçersizliği yeterli olmalıydı. Ne inatçı bir patron. Bu arada daha iyi bir iş arıyor olun. İyi şanslar.


12

Bir örnek daha. Biri çikolata yeme, diğeri ise genel refah ile bağlantılı olan iki değişkeniniz olduğunu hayal edin. İki örnek var ve verileriniz aşağıdaki gibi görünüyor:

chocolateno happinessno chocolatehappiness

Numunenize dayalı çikolata ve mutluluğun ilişkisi nedir? Ve şimdi, sütunlardan birinin sırasını değiştirin - bu işlemden sonraki ilişki nedir?

Aynı soruna farklı şekilde yaklaşılabilir. Diyelim ki, birkaç vaka ile daha büyük bir örnekleminiz olduğunu ve iki sürekli değişkeni ölçtüğünüzü söyleyin: günlük çikolata tüketimi (gram olarak) ve mutluluk (ölçmek için bir yolunuz olduğunu hayal edin). Eğer ilgileniyorsanız onlar ilişkili eğer korelasyon ölçmek veya lineer regresyon modeli kullanıyoruz ama bazen böyle durumlarda insanların sadece bir değişkeni dichotomize ve bir gruplama faktörü olarak kullanabilirsiniz şudur (-TEST değil en iyi ve değilN ttÖnerilen yaklaşım, ancak bir örnek olarak kullanmama izin verin. Böylece numunenizi iki gruba ayırırsınız: yüksek çikolata tüketimi ve düşük çikolata tüketimi ile. Sonra, her iki gruptaki ortalama mutluluğu karşılaştırırsınız. Şimdi, mutluluk değişkenini gruplandırma değişkeninden bağımsız olarak sıralarsanız ne olacağını hayal edin: yüksek mutluluğa sahip tüm vakalar yüksek çikolata tüketim grubuna gider, düşük mutluluğa sahip tüm vakalar düşük çikolata tüketim grubuna girer - böyle bir hipotez testi olur mu? herhangi bir duyu? Çikolata tüketimi için iki grup yerine, her bir katılımcı için bir tane olmak üzere grubuna sahip olduğunuzu düşünüyorsanız ( testin regresyonla ilgili olduğunu unutmayın) , bu kolayca regresyona eklenebilir .Nt

İki değişkenli regresyon veya korelasyon biz her arasındaki ikili ilişkiler ile ilgilenen değerini ıncı ve değerini ıncı gözlemler sırasını bu ilişkiyi tahrip değişen. Her iki değişkeni de sıralarsanız , bunların her zaman birbirleriyle daha pozitif ilişkide olmalarını sağlar, çünkü her zaman değişkenlerden biri artarsa ​​diğeri de artar (çünkü sıralanırlar!).X i YiXiY

Bazen vakaların sırasını değiştirmekle gerçekten ilgilendiğimize dikkat edin, bunu örnekleme yöntemlerinde yapıyoruz . Örneğin, verilerimizin null dağılımı hakkında bir şeyler öğrenmek için (verilerimiz ikili ilişkiler olmasaydı nasıl görünürdü gibi) bir şeyler öğrenmek için gözlemleri kasıtlı olarak defalarca karıştırabiliriz; karıştırılır. Yöneticinizin yaptığı tam tersidir - kasıtlı olarak gözlemleri, yapının olmadığı yapay bir yapıya, sahte ilişkilere yol açan şeylere zorlar.


8

Belki yöneticinizin anlayabileceği basit bir örnek:

Diyelim ki Coin Y ve Coin X'e sahipler ve her birini 100 kez çeviriyorsunuz. Daha sonra, Coin X (IV) ile bir kafa almanın, Coin Y (DV) ile bir kafa alma şansını arttırıp arttırmayacağını tahmin etmek istersiniz.

Sıralama olmadan, ilişki olmayacak çünkü Coin X'in sonucunun Coin Y'nin sonucunu etkilememesi gerekir. Sıralamada, ilişki neredeyse mükemmel olacaktır.

Farklı bir yazı turalı bir kafa attıysanız, yazı tura atmak için iyi bir şansın olduğu sonucuna varmak ne kadar mantıklı?


1
Herhangi bir para birimi için çeviri gerekiyor, ancak kabul ettiğiniz para birimi. (Bunun son derece önemsiz bir itiraz olduğunu biliyorum ve herhangi bir sorunu çözmek kolay, ancak bazen bunun uluslararası bir forum olduğunu vurgulamakta
Nick Cox

8

Bu teknik aslında şaşırtıcı. Asla şüphelenmediğim her türlü ilişkiyi buluyorum. Mesela, CLAIMED olan Powerball piyangounda gösterilen sayıların rastgele olduğuna dair şüphelerim olmasaydı, aslında aynı gün Apple hisse senedinin açılış fiyatı ile de yüksek oranda ilişkiliydi! Millet, sanırım büyük zaman içinde para kazanmak üzereyiz. :)

> powerball_last_number = scan()
1: 69 66 64 53 65 68 63 64 57 69 40 68
13: 
Read 12 items
> #Nov. 18, 14, 11, 7, 4
> #Oct. 31, 28, 24, 21, 17, 14, 10
> #These are powerball dates.  Stock opening prices 
> #are on same or preceding day.
> 
> appl_stock_open = scan()
1: 115.76  115.20 116.26  121.11  123.13 
6: 120.99  116.93  116.70  114.00  111.78
11: 111.29  110.00
13: 
Read 12 items
> hold = lm(appl_stock_open ~ powerball_last_number)
> summary(hold)


Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)           112.08555    9.45628  11.853 3.28e-07 ***
powerball_last_number   0.06451    0.15083   0.428    0.678    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.249 on 10 degrees of freedom
Multiple R-squared:  0.01796,   Adjusted R-squared:  -0.08024 
F-statistic: 0.1829 on 1 and 10 DF,  p-value: 0.6779

Hmm, önemli bir ilişki gibi görünmüyor. AMA, yeni, geliştirilmiş tekniği kullanarak:

> 
> vastly_improved_regression = lm(sort(appl_stock_open)~sort(powerball_last_number))
> summary(vastly_improved_regression)

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)    
(Intercept)                 91.34418    5.36136  17.038 1.02e-08 ***
sort(powerball_last_number)  0.39815    0.08551   4.656    9e-04 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.409 on 10 degrees of freedom
Multiple R-squared:  0.6843,    Adjusted R-squared:  0.6528 
F-statistic: 21.68 on 1 and 10 DF,  p-value: 0.0008998

NOT: Bu ciddi bir analiz olmak değildir. Yöneticinize, ikisini de sıralarsanız, HERHANGİ iki değişkenle önemli ölçüde ilişkili olabileceklerini gösterin.


6

Burada birçok iyi karşı örnek var. Sadece sorunun kalbi hakkında bir paragraf ekleyeyim.

XiYiXYiiX1Y1X2Y2XYX1Y1X1Y1

Aslında, neden "işe yaradığını" da anlatan bir paragraf ekleyeyim.

XaXbXaXYaXzXYzYXaYaXzYzX1Y1


6

Aslında, açıklanan test (yani, X değerlerini ve Y değerlerini bağımsız olarak sıralayın ve birini diğerine göre gerileyin) (X, Y) 'nin iki değişkenli bir dağılımdan bağımsız çiftler olarak örneklendiğini varsayarak bir şeyi test edin. Bu sadece yöneticinizin test etmek istediği şeyin bir testi değil. Temel olarak, bir QQ grafiğinin doğrusallığını kontrol eder, X'lerin marjinal dağılımını ve Ys'nin marjinal dağılımını karşılaştırarak kontrol eder. Özellikle, eğer Xs (f (x)) yoğunluğu bu şekilde Ys ​​(g (y)) yoğunluğu ile ilgiliyse, 'veri' düz bir çizgiye yakın olacaktır:

f(x)=g((ya)/b)ab>0


4

En belirgin karşı örneklemin, cevaplar arasında en basit haliyle mevcut olmaması gariptir.

Y=X

Y^X

Bu, burada bulmak isteyebileceğiniz modelin bir tür "doğrudan tersi" dir.


Bunun bir karşı örnek olarak ne iddiasını açıklayabilir misiniz?
whuber

Yöneticinin girişleri ve çıkışları bağımsız olarak sıralayarak "her zaman daha iyi gerilimler elde edebileceğini" iddia ediyor.
KT.

R2=1

R2

1
R2Y=X

3

Haklısın. Yöneticiniz "iyi" sonuçları bulur! Fakat onlar anlamsız. Onları bağımsız olarak sıraladığınızda elde ettiğiniz şey, ikisinin de benzer şekilde artması veya azalmasıdır ve bu, iyi bir modelin bir semblanceini verir. Ancak iki değişken gerçek ilişkilerinden çıkarıldı ve model yanlış.


3

xx2xx2x

Doğrusal regresyon genellikle daha az makuldür (istisnalar vardır, diğer cevaplara bakınız); ancak kuyrukların ve hataların dağılımının geometrisi size benzer dağılımların ne kadar uzakta olduğunu gösterir.


2

İşlev monoton ise neden bu gerçekten iyi bir fikir olduğunu basit bir sezgi var :

x1,x2,,xnxi<xi+1f:yi=f(xi)+εiεi

εi=f(xi+δ)f(xi)
δ{Δ,Δ+1,Δ1,Δ}ΔNΔ=0Δ=n

f

εi

Not: Görünüşe göre basit bir sorunun yeniden düşünme standartları modelinin ilginç yeni yollarına neden olabileceğini şaşırtıcı buluyorum. Lütfen teşekkür ederim patron!


1
xi+δi+δ<1i+δ>n

2

Diyelim ki bu noktaların yarıçapı 5 dairesinde olduğunu söyleyin.

import pandas as pd
s1 = [(-5, 0), (-4, -3), (-4, 3), (-3, -4), (-3, 4), (0, 5), (0, -5), (3, -4), (3, 4), (4, -3), (4, 3), (5, 0)]
df1 = pd.DataFrame(s1, columns=["x", "y"])
print(df1.corr())

   x  y
x  1  0
y  0  1

Sonra x ve y değerlerinizi sıralar ve tekrar korelasyonu yaparsınız:

s2 = [(-5, -5), (-4, -4), (-4, -4), (-3, -3), (-3, -3), (0, 0), (0, 0), (3, 3), (3, 3), (4, 4), (4, 4), (5, 5)]
df2 = pd.DataFrame(s2, columns=["x", "y"])
print(df2.corr())

   x  y
x  1  1
y  1  1

Bu manipülasyonla, 0.0 korelasyonlu bir veriyi 1.0 korelasyonlu olana değiştirirsiniz. Bu bir sorun.


1

Şeytanın Avukatı'nı burada oynayalım. Birçok cevabın patronun prosedürünün temelde yanlış olduğu konusunda ikna edici davalar yaptığını düşünüyorum. Aynı zamanda, patronun bu yanlış dönüşümle sonuçların gerçekten iyileşmiş olduğunu görebileceğini gösteren bir karşı örnek sunuyoruz.

Patron için bu prosedürün "işe yaramış" olabileceğini kabul etmenin daha ikna edici bir tartışma başlatabileceğini düşünüyorum: Tabii, işe yaradı, ancak genellikle bu işe yaramayacak bu şanslı koşullar altında. O zaman gösterebiliriz - mükemmel cevapta olduğu gibi - şanslı olmadığımız zaman ne kadar kötü olabilir. Bu çoğu zaman. İzolasyon, bu kadar kötü patron gösteren olabilir o davayı görmüş olabilir çünkü onu ikna olmayabilir olmak does bizim fantezi argüman yerde bir kusur olması gerekir şeyleri iyileştirmek ve şekil.

Bu verileri çevrimiçi olarak buldum ve tabii ki, regresyonun X ve Y'nin bağımsız olarak sıralanmasıyla geliştiği görülüyor, çünkü: a) Veriler arasında pozitif bir korelasyon var ve b) OLS gerçekten aşırı derecede iyi değil (yüksek) kaldıraç) aykırı değerlerdir. Boy ve kilo, dışkı dahil edilen ile 0.19, dışa vurulan hariç 0.77 ve X ve Y ile bağımsız olarak sıralanan 0.78 arasında bir korelasyona sahiptir.

x <- read.csv ("https://vincentarelbundock.github.io/Rdatasets/csv/car/Davis.csv", header=TRUE)

plot (weight ~ height, data=x)

lm1 <- lm (weight ~ height, data=x)

xx <- x
xx$weight <- sort (xx$weight)
xx$height <- sort (xx$height)

plot (weight ~ height, data=xx)

lm2 <- lm (weight ~ height, data=xx)

plot (weight ~ height, data=x)
abline (lm1)
abline (lm2, col="red")

görüntü tanımını buraya girin

plot (x$height, x$weight)
points (xx$height, xx$weight, col="red")

görüntü tanımını buraya girin

Bu yüzden bana bu veri setindeki regresyon modelinin bağımsız sıralama (ilk grafikte siyaha karşı kırmızı çizgi) ile geliştirildiği ve belirli veri setinden dolayı görünür bir ilişki (ikinci grafikte siyaha karşı kırmızı) olduğu anlaşılıyor. son derece (pozitif) ilişkilidir ve regresyona zarara neden olan karışıklıktan daha fazla zarar veren doğru tür aykırı değerlere sahip olmak, x ve y'yi bağımsız olarak sıraladığınızda ortaya çıkar.

Yine, bağımsız sıralama yapmanın genel olarak mantıklı olan hiçbir şey yapmaması veya buradaki doğru cevap olmadığını söylemektir. Sadece patron tam da bu şartlar altında işe yarayan böyle bir şey görmüş olabilir.


1
Benzer korelasyon katsayılarına ulaştığınız tamamen tesadüflere benziyor. Bu örnekte, orijinal ve bağımsız olarak sıralanmış veriler arasındaki ilişki hakkında hiçbir şey gösterilmemiştir.
whuber

2
@ whuber: İkinci grafiğe ne dersiniz? Eğer orjinal veriler yüksek düzeyde korelasyon gösteriyorsa, bunları sınıflandırmanın değerleri orijinal olarak +/- biraz koruyarak sadece biraz değer değiştirebileceğini hissediyorum. Birkaç aykırıyla, işler daha fazla yeniden düzenlenir, ancak ... Üzgünüm matematik kesiminden daha ileriye gitmem.
Wayne

1
Bence ifade ettiğin sezgi doğru, Wayne. Sorunun mantığı - yorumladığım gibi - yalnızca sıralanmış değişkenlerin dağılım grafiğine dayanarak orijinal veriler hakkında söyleyebileceklerinizle ilgilidir . Cevap, onların ayrı (tek değişkenli) dağılımlardan elde edebileceğinizlerin ötesinde hiçbir şey olmadığıdır. Mesele şu ki, ikinci grafiğinizdeki kırmızı noktalar, yalnızca gösterdiğiniz verilerle değil, aynı zamanda bu verilerin astronomik olarak çok sayıda diğer permütasyonları ile de uyumludur - ve bu permütasyonların hangisinin ne olduğunu bilmenin hiçbir yolu yoktur. sağdaki.
whuber

2
@whuber Buradaki temel ayrım, OP'nin verileri "tamamen imha etmesi" gerektiğini söyledi. Kabul edilen cevabınız, genel olarak durumun nasıl olduğunu ayrıntılı olarak gösterir. Bu şekilde ele alınan verileri kullanamazsınız ve sonucun mantıklı gelip gelmeyeceği konusunda hiçbir fikriniz olmaz. ANCAK, yöneticinin daha önce benim (counter) örneğindeki gibi örneklerle de başa çıkabileceği ve bu yanlış yönlendirilmiş dönüşümün gerçekten sonuçları iyileştirdiği tespit edildi. Böylece yöneticinin temelde yanıldığını kabul edebiliriz, ancak oldukça şanslı olmuş olabilir - ve şanslı durumda, işe yarıyor.
Wayne

@whuber: Cevabımın girişini tartışmaya uygun hale getirecek şekilde düzenledim. Patronun prosedürünün onun için nasıl çalıştığını kabul etmenin, patronun tecrübesiyle canlandıran daha ikna edici bir tartışmanın ilk adımı olabileceğini düşünüyorum. Düşünceniz için.
Wayne

-7

Değişkenleri monoton olarak önceden seçmişse, aslında oldukça sağlamdır. Google "uygunsuz doğrusal modeller" ve "Robin Dawes" veya "Howard Wainer". Dawes ve Wainer, katsayıları seçmenin alternatif yolları hakkında konuşurlar. John Cook'un kısa bir sütunu var ( http://www.johndcook.com/blog/2013/03/05/robustness-of-equal-weights/ ).


4
Cook'un bu blog yazısında tartıştığı şey, x ve y'yi birbirinden bağımsız olarak sıralamak ve sıralanan değişkenlere bir regresyon modeli uygulamakla aynı şey değil.
gung

4
OP'nin patronunun yaptığı şey, "FInverse (F (G) 'nin Y ve X'in ecdf'leri olduğu FInverse (G (x)))' in ne olduğunu tahmin etmek değildir. Prosedürü cevabımdaki kodda görebilirsiniz.
gung

4
1. Dawes ve / veya Wainer tarafından belirli bir makaleye referans ekleyebilir misiniz, 2. patronun sınıflandırma prosedürüyle nasıl ilişkili olduğunu açıklayabilir misiniz? Yoksa, katsayının değeri, işaretin doğru olması ve işaretin varsayımla doğru olması gerektiği sürece önemli olmaması durumunda, patronun prosedürünün katsayılar için garip değerler vermesi önemli değil mi?
Juho Kokkala

2
1. Referanslar: - Dawes, RM "Karar vermede uygun olmayan lineer modellerin sağlam güzelliği." Amer. Psyschol. 34, hayır. 7 (1979): 571. - Wainer, H. "Lineer modellerde katsayıları tahmin etme: Hiç bir şey ifade etmiyor." Psych. Boğa. 83, hayır. 2 (1976): 213. - Dawes, RM ve Corrigan, B. "Karar Vermede Doğrusal Modeller." Psych. Bull., 81 95-106 (1974) 2. Hem Dawes hem de Wainer, gerçek veriler ve gerçek tahmin problemleriyle, X'ten gelecek Y'yi araçlarından sapmalarla ya da eşleştirme puanlarıyla oldukça iyi çalıştığını ve bunun oldukça iyi olduğunu göstermektedir. yokuşa duyarsız.
Bill Raynor

2
Bu referanslar ve açıklamalar cevabınıza yorumlarda gömülmek yerine daha iyi olacaktır.
Scortchi

-8

Bunu düşündüm ve sipariş istatistiklerine göre burada bir yapı olduğunu düşündüm. Ben kontrol ettim ve yöneticinin mo göründüğü kadar deli değil gibi görünüyor

Biyosignal Analiz Uygulamaları ile Yeni Bir Dernek Ölçümü Olarak Sipariş İstatistikleri Korelasyon Katsayısı

http://www.researchgate.net/profile/Weichao_Xu/publication/3320558_Order_Statistics_Correlation_Coefficient_as_a_Novel_Association_Measurement_With_Applications_to_Biosignal_Analysis/links/0912f507ed6f94a3c6000000.pdf

Sipariş istatistiklerine ve yeniden düzenlenme eşitsizliğine dayalı yeni bir korelasyon katsayısı öneriyoruz. Önerilen katsayı, Pearson'un doğrusal katsayısı ile iki sıra tabanlı katsayı arasında Spearman's rho ve Kendall's tau arasında bir uzlaşmayı temsil eder. Teorik türevler, katsayımızın üç klasik katsayı ile aynı temel özelliklere sahip olduğunu göstermektedir. Dört model ve altı biyo-sinyale dayanan deneysel çalışmalar, katsayımızın doğrusal ilişkileri ölçerken iki sıra tabanlı katsayıdan daha iyi performans gösterdiğini; iki sıra tabanlı katsayılar gibi monoton lineer olmayan ilişkileri tespit edebiliyor. Kapsamlı istatistiksel analizler ayrıca yeni katsayımızın üstün gürültü önleyici sağlamlığa, küçük yanlılığa sahip olduğunu,


14
Sorunun tanımladığı şey bu değil. Veriler, sipariş istatistikleriyle değiştirildiğinde, veri çiftleri her zaman olduğu gibi hala bağlanır. Soru, ortak bağlantıları hakkında tüm bilgileri yok eden, bu bağlantıları yok eden bir işlemi açıklar.
whuber

Şart değil. Bağımsız sıralamanın ortak olasılıkla ilgili tüm bilgileri tahrip etmediği yerlerde veri kümeleri oluşturabilir (ya da üzerinde olabilir).
Daniel,

5
Lütfen bize talebinizin açık bir örneğini verin, çünkü böyle bir şeyin matematiksel olarak nasıl mümkün olduğunu görmek zor, pratikte daha az mümkün.
whuber

@whuber: Lütfen sorunuzu karşılayan gerçek bir veri setine sahip olan yeni cevabımı görün.
Wayne
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.