En iyi uyum çizgisi iyi bir uyum gibi görünmüyor. Neden?


82

Bu Excel grafiğine bir göz atın: grafik

'En iyi uyum' çizgisi 'sağduyuluların tam ortasından geçen dikey bir çizgi gibi görünebilir (elle kırmızı renkle düzenlenmiştir). Bununla birlikte, Excel tarafından karar verilen doğrusal eğilim çizgisi gösterilen çapraz siyah çizgidir.

  1. Excel neden (insan gözüyle) yanlış görünen bir şey üretti?
  2. Biraz daha sezgisel görünen en uygun çizgiyi nasıl üretebilirim (örneğin kırmızı çizgi gibi bir şey)?

Güncelleme 1. Veri ve grafik içeren bir Excel elektronik tablosu burada mevcuttur: Örnek veriler , Pastebin'deki CSV . Tip1 ve tip2 regresyon teknikleri excel fonksiyonları olarak mevcut mudur?

Güncelleme 2. Veriler, rüzgarla sürüklenirken termal olarak tırmanan bir yamaç paraşütüdür. Nihai amaç rüzgar gücü ve yönünün yükseklikle nasıl değiştiğini araştırmaktır. Ben bir mühendisim, matematikçi veya istatistikçi değil, bu yüzden bu cevaplardaki bilgiler bana araştırma için daha fazla alan verdi.


5
Dürüst olmak gerekirse, bunun OLS'ye karşı Deming regresyonu meselesi olduğundan şüpheliyim. Çok küçük mutlak değişkenlik baktığımızda ve , Doğrusu bu Excel'de sayısal sorun olabilir düşünürdüm. Sorunuzu verileri içerecek şekilde düzenleyebilir misiniz? yxy
Stephan Kolassa

12
Bu fenomen, 19. yüzyılın en büyük istatistiksel keşiflerinden biriydi (eğer hiç değilse). Bu ortalamaya doğru regresyon denir . Gerçekten de, bu istatistiksel prosedürün “regresyon” olarak adlandırılmasının nedeni budur!
whuber

3
Sığdırların çok farklı görünmesinin ana sebebinin arsanın y eksenindeki ölçeği çok fazla abartması olduğunu eklemeliyim. Her iki ölçeğin de marjinal standart sapmalarla orantılı olduğu yerlerde çizerek, hangi uyumun daha "sağduyu" olduğu konusunda tamamen farklı sonuçlara varabilirsiniz.
whuber

6
@StephanKolassa - Eğer kırmızı çizgi kullanılır ve tahmin eğer hata olacağını ne kadar büyük Not için ; kırmızı çizgi en iyi en küçük kareler sığamaz. Excel'in kesinlikle problemleri var ama bence bu onlardan biri değil. yx=0.714
Jbowman

7
Bu zaten sitede çok sayıda ele alınmıştır (örneğin, buraya bakınız ). Bir regresyon çizgisinin ne olduğunu anladığınızda, neden siyah çizginin olduğunu görmek kolaydır. Kendinize iki soru sorun: 1: x yaklaşık 0.712 olduğunda y'nin ortalama değeri nedir? 2. Kırmızı ve siyah çizgiler ne olacağını öngörüyor? ... [ Verilerinizle ilgili sorunuzu yeniden düzenlemeye değeceğine dair özel sorunlar olduğu için şu anda yinelemeli olarak kapanmaya devam ettim ]
Glen_b

Yanıtlar:


111

Bağımlı değişken var mı?

Excel'deki eğilim çizgisi, "lat" bağımlı değişkeninin bağımsız "lon " değişkenine regresyonundan gelir . Bağımlı değişken belirlemediğiniz ve "enlem ve boylamlara eşit" davrandığınızda, "sağduyu çizgisi" dediğiniz şey elde edilebilir . Sonuncusu PCA uygulanarak elde edilebilir . Özellikle, bu değişkenlerin kovaryans matrisinin öz vektörlerinden biridir. Herhangi bir noktadan bir çizginin kendisine olan en kısa mesafeyi en aza indiren bir çizgi olarak düşünebilirsiniz , yani bir çizgiye dik çizer ve her gözlem için bunların toplamını en aza .(xi,yi)

görüntü tanımını buraya girin

İşte R'de nasıl yapabildiğiniz:

> para <- read.csv("para.csv")
> plot(para)
> 
> # run PCA
> pZ=prcomp(para,rank.=1)
> # look at 1st PC
> pZ$rotation
           PC1
lon 0.09504313
lat 0.99547316
> 
> colMeans(para) # PCA was centered
       lon        lat 
-0.7129371 53.9368720 
> # recover the data from 1st PC
> pc1=t(pZ$rotation %*% t(pZ$x) )
> # center and show
> lines(pc1 + t(t(rep(1,123))) %*% c)

Excel'den aldığınız trend çizgisi, Excel regresyonunda değişkenlerin eşit olmadığını anladığınızda PCA'dan gelen öz vektör gibi ortak bir anlam ifade eder. Burada ile arasındaki dikey mesafeyi en aza , burada y ekseni enlem ve x ekseni bir boylam.yiy(xi)

Değişkenlere eşit davranmak isteyip istemediğiniz, hedefe bağlıdır. Verilerin doğal kalitesi değil. Verileri analiz etmek için doğru istatistiksel aracı seçmeniz gerekir, bu durumda regresyon ve PCA arasında seçim yapın.

Sorulmamış bir sorunun cevabı

Öyleyse, neden sizin durumunuzda Excel'de bir (regresyon) trend çizgisi sizin durumunuz için uygun bir araç gibi görünmüyor? Bunun nedeni trend çizgisinin sorulmamış bir sorunun cevabı olmasıdır. İşte nedeni.

Excel regresyon, satırının parametrelerini tahmin etmeye çalışıyor . Bu yüzden, ilk sorun, enlem, kesinlikle konuşulan bir boylamın fonksiyonu değildir (yazı sonundaki nota bakınız) ve asıl mesele bile değildir. Asıl sorun, Yamaçparaşütü'nün bulunduğu yerle bile ilgilenmemeniz, rüzgarla ilgilenmeniz.lat=a+b×lon

Rüzgar olmadığını hayal et. Bir yamaçparaşütü aynı daireyi tekrar tekrar yapıyor olacaktı. Trend çizgisi ne olurdu? Açıkçası, düz yatay çizgi olacaktı, eğimi sıfır olacaktır, ancak rüzgarın yatay yönde esiyor olduğu anlamına gelmez!

Yamaçparaşütü mükemmel daireler çizerken, y ekseni boyunca kuvvetli bir rüzgar varken, simüle edilmiş bir komplo. Doğrusal regresyonun saçma sapan sonucu, yatay trend çizgisini nasıl ürettiğini görebilirsiniz . Aslında, biraz olumsuz, ama önemli değil. Rüzgar yönü kırmızı bir çizgi ile gösterilir:yx

görüntü tanımını buraya girin

Simülasyon için R kodu:

t=1:123
a=1 #1
b=0 #1/10
y=10*sin(t)+a*t
x=10*cos(t)+b*t

plot(x,y,xlim=c(-60,60))
xp=-60:60
lines(b*t,a*t,col='red')

model=lm(y~x)
lines(xp,xp*model$coefficients[2]+model$coefficients[1])

Dolayısıyla, rüzgarın yönü açıkça hiçbir şekilde trend çizgisiyle aynı hizada değil. Tabii ki bağlantılılar ama önemsiz bir şekilde. Bu nedenle, benim Excel eğilim çizgisinin bazı soruların cevabı olduğunu söylemiştim, ancak sorduğunuza değil.

Neden PCA?

Sizin de belirttiğiniz gibi bir yamaçparaşütü hareketinin en az iki bileşeni vardır: bir rüzgar yamaç paraşütü ile kontrol edilen bir rüzgar ve dairesel hareket. Arsadaki noktaları birleştirdiğinizde bu açıkça görülür:

görüntü tanımını buraya girin

Bir yandan, dairesel hareket sizin için gerçekten sıkıntı verici: rüzgarla ilgileniyorsunuz. Diğer yandan, rüzgar hızını gözlemlemeseniz de, sadece yamaç paraşütünü gözlemlersiniz. Öyleyse, hedefiniz gözlemlenemeyen rüzgârın gözlemlenebilir yamaç paraşütçünün lokasyon okumasından çıkarılmasıdır. Bu tam olarak faktör analizi ve PCA gibi araçların yararlı olabileceği durumdur.

PCA'nın amacı, çıktılardaki korelasyonları analiz ederek çoklu çıktıları belirleyen birkaç faktörü izole etmektir. Çıktı doğrusal olan faktörlere bağlandığında etkilidir, bu verilerinizde olduğu gibi olur: rüzgar kayması, dairesel hareketin koordinatlarına eklenir, bu yüzden PCA burada çalışmaktadır.

PCA kurulumu

Öyleyse, PCA'nın burada bir şansa sahip olması gerektiğini belirledik, ancak gerçekte nasıl ayarlayacağız? Şimdi üçüncü bir değişken ekleyerek başlayalım. Sabit örnekleme frekansını varsayarsak, her 123 gözlem için 1 - 123 arası zaman atayacağız. İşte 3B arsa verilere benziyor ve spiral yapısını ortaya koyuyor:

görüntü tanımını buraya girin

Bir sonraki çizim, yamaç paraşütçünün hayali dönme merkezini kahverengi daireler olarak göstermektedir. Mavi bir nokta ile gösterilen yamaç paraşütü etrafında dolanırken, rüzgarla birlikte laton düzleminde nasıl sürüklendiğini görebilirsiniz. Zaman dikey eksende. Dönme merkezini, sadece ilk iki daireyi gösteren bir yamaç paraşütü yerine karşılık gelen bir yere bağladım.

görüntü tanımını buraya girin

Karşılık gelen R kodu:

library(plotly)       

 para <- read.csv("C:/Users/akuketay/Downloads/para.csv")
 n=24

   para$t=1:123 # add time parameter

   # run PCA
     pZ3=prcomp(para)
     c3=colMeans(para) # PCA was centered
     # look at PCs in columns
       pZ3$rotation

       # get the imaginary center of rotation 
       pc31=t(pZ3$rotation[,1] %*% t(pZ3$x[,1]) )
     eye = pc31 + t(t(rep(1,123))) %*% c3
     eyedata = data.frame(eye)

     p = plot_ly(x=para[1:n,1],y=para[1:n,2],z=para[1:n,3],mode="lines+markers",type="scatter3d") %>%
       layout(showlegend=FALSE,scene=list(xaxis = list(title = 'lat'),yaxis = list(title = 'lon'),zaxis = list(title = 't'))) %>%
     add_trace(x=eyedata[1:n,1],y=eyedata[1:n,2],z=eyedata[1:n,3],mode="markers",type="scatter3d") 
     for( i in 1:n){
         p = add_trace(p,x=c(eyedata[i,1],para[i,1]),y=c(eyedata[i,2],para[i,2]),z=c(eyedata[i,3],para[i,3]),color="black",mode="lines",type="scatter3d")
       }

subplot(p)

Yamaçparaşütçünün dönme merkezinin sapmasına esas olarak rüzgar neden olur ve sapmanın yolu ve hızı, gözlenemeyen değişken değişkenlerin yönü ve hızı ile ilişkilidir. Enlemesine uç-uç düzlemine yansıtıldığında sürüklenme böyle gözükür:

görüntü tanımını buraya girin

PCA Regresyonu

Böylece, daha önce normal lineer regresyonun burada çok iyi çalışmadığını görmüştük. Ayrıca nedenini de belirledik: çünkü bu temel süreci yansıtmıyor çünkü yamaç paraşütçünün hareketi oldukça doğrusal değil. Dairesel hareket ve doğrusal bir kayma birleşimidir. Ayrıca bu durumda faktör analizinin yardımcı olabileceğini de tartıştık. İşte bu verileri modellemeye yönelik olası bir yaklaşımın ana hatları: PCA regresyonu . Fakat ilk önce size PCA regresyon uyarlanmış eğrisini göstereceğim :

görüntü tanımını buraya girin

Bu, aşağıdaki şekilde elde edilmiştir. Daha önce tartışıldığı gibi, fazladan sütun t = 1: 123 olan veri kümesinde PCA'yı çalıştırın. Üç ana bileşen elde edersiniz. İlki basitçe t. İkincisi, lon sütununa ve üçüncü ila lat sütununa karşılık gelir.

Son iki ana bileşeni, bir biçiminde bir değişkene yerleştiriyorum , burada bileşenlerin spektral analizinden çıkarıldı. Aynı frekansa sahipler, ancak farklı hareketler var, bu da dairesel harekete göre şaşırtıcı değildir.asin(ωt+φ)ω,φ

Bu kadar. Takılan değerleri elde etmek için, PCA dönme matrisinin transpozisyonunu öngörülen ana bileşenlere takarak verileri takılı bileşenlerden kurtarırsınız. Yukarıdaki R kodum prosedürün bir kısmını ve kolayca çözebileceğiniz kısımları gösterir.

Sonuç

PCA'nın ve diğer basit araçların ne kadar güçlü olduğunu görmek, altta yatan işlemlerin kararlı olduğu fiziksel girişler ve girdilerin doğrusal (ya da doğrusallaştırılmış) ilişkiler yoluyla çıktılara çevrilmesidir. Dolayısıyla bizim durumumuzda dairesel hareket çok doğrusal değildir, ancak bir t parametresinde sinüs / kosinüs fonksiyonlarını kullanarak onu kolayca doğrusallaştırdık. Arsalarım, gördüğünüz gibi sadece birkaç satır R koduyla üretildi.

Regresyon modeli altta yatan süreci yansıtmalıdır, o zaman sadece parametrelerinin anlamlı olmasını bekleyebilirsiniz. Eğer bu rüzgarda sürüklenen bir yamaç paraşütü ise, orijinal sorudaki gibi basit bir dağılım grafiği işlemin zaman yapısını gizleyecektir.

Ayrıca Excel regresyonu, lineer regresyonun en iyi şekilde çalıştığı, verileriniz zaman içinde gözlemlerin sıralandığı bir zaman serisi işlemidir. Zaman serileri analizi burada uygulanmalı ve PCA regresyonunda yapıldı.

İşlev hakkında notlar

Yamaçparaşütü daireler çizdiği için, tek bir boylama karşılık gelen çoklu enlemler olacaktır. Matematik olarak bir işlev değerini eşler tek bir değer için . Çoktan bire ilişki, yani birden fazla , karşılık gelebilir , ancak birden fazla , tek bir karşılık gelmez . Bu nedenle kesinlikle konuşmayan bir fonksiyon değildir.y=f(x)xyxyyxlat=f(lon)


11
Spiral yapıda iyi yakalama! İki taraf yorumu: Alternatif bir parametre olarak ile çalışmak daha kolaydır . Asıl sorunla ilgisi olmayan ya da ilgisiz bir dönemlik üzerinden ortalama seçmeyi seçtiğimiz birçok durum var. a sin ωt+b cos ωt
Nick Cox

11
Onlara eşit muamele etmek isteyip istemediğiniz, hedefe bağlıdır. Verilerin doğal kalitesi değil. - Harika nokta ve +1.
Richard Hardy

@NickCox, bu doğru, daha az iş olurdu
Aksakal

PCA'nın ana eksen regresyonunun> 2 değişkene sahip olduğunuz duruma genelleştirilmesi olduğunu belirtmeye değer olabilir. Ancak bu durumda sadece 2 değişken bulunduğundan, tekniğin standart adı ana eksen gerilemesi olacaktır (bazen dikgen regresyon veya Tip II regresyon olarak da adlandırılır).
Tom Wenseleers

61

Bu sorunun cevabı muhtemelen zihinsel olarak regresyon çizgisine olan mesafeyi değerlendirdiğinizle ilgilidir. Standart (Tip 1) regresyon kare çizgisini en aza indirger, burada hatanın çizgiye olan dikey mesafeye göre hesaplanır .

Tip 2 regresyon, en iyi çizgiyi değerlendirmenize daha benzer olabilir. İçinde minimize edilen kare hatası çizgiye dik mesafedir . Bu farkın bir takım sonuçları vardır. Önemli olan, arsadaki X ve Y eksenlerini değiştirip çizgiyi yeniden takmanız durumunda, Tip 1 regresyon değişkenleri arasında farklı bir ilişki elde edersiniz. Tip 2 regresyonu için ilişki aynı kalır.

Benim izlenimim, Tip 1'e ve Tip 2 regresyonunun nerede kullanılacağı hakkında oldukça fazla tartışma olduğu ve bu yüzden hangisinin uygulanacağına karar vermeden önce farkları dikkatlice okumanızı öneriyorum. Bir eksenin deneysel olarak kontrol edildiği veya en azından diğerinden çok daha az hatayla ölçüldüğü durumlarda Tip 1 regresyon sıklıkla önerilmektedir. Bu koşullar yerine getirilmezse, Tip 1 regresyon 0'a doğru eğimli olacaktır ve bu nedenle Tip 2 regresyon önerilir. Bununla birlikte, her iki eksende de yeterli gürültü olması durumunda, tip 2 regresyon görünüşte onları 1'e doğru eğilimindedir. Warton et al. (2006) ve Smith (2009) tartışmayı anlamak için iyi kaynaklardır.

Ayrıca, Tip 2 regresyonun geniş kategorisinde (Majör Eksen, İndirilmiş Majör Eksen ve Standart Majör Eksen regresyonu) giren birkaç farklı metot olduğunu ve spesifik metotlarla ilgili terminolojinin tutarsız olduğuna dikkat edin.

Warton, DI, IJ Wright, DS Falster ve M. Westoby. 2006. Allometri için iki değişkenli çizgi uydurma yöntemleri. Biol. Rev. 81: 259-231. doi: 10,1017 / S1464793106007007

Smith, RJ 2009. Hat montajında ​​azaltılmış ana eksenin kullanımı ve kötüye kullanılması. Am. J. Phys. Anthropol. 140: 476-486. doi: 10.1002 / ajpa.21090


EDIT :

@ amoeba, yukarıda Tip 2 regresyon dediğim şeyin aynı zamanda ortogonal regresyon olarak da bilinir; bu daha uygun bir terim olabilir. Yukarıda belirttiğim gibi, bu alandaki terminoloji tutarsız, bu da daha fazla özen gösterir.


19
Tip 1 mi yoksa tip 2 mi kullanılacağı hakkında tartışma? Amacınızın (nesnel işlev veya kayıp işlevi) ne olduğunu bildiğiniz zaman tartışılacak bir şey yoktur. Ve yapmazsan, peki, devam etmeden önce bunu açıklığa kavuşturmalısın.
Richard Hardy

7
Her iki eksen farklı birimler kullanıyorsa, Tip 2 ayrıca saçma sapan sonuçlar verir.
John Dvorak

4
Standart tiplermiş gibi "Tip 1" ve "Tip 2" kullanıyorsunuz. Onlar mı? Normal tip regresyon ve ortogonal regresyon "tip 1" ve "tip 2" olarak adlandırılan hiç kimseye yöneltmedim.
amip

2
@RichardHardy Tabii ki, birinin özel hedefini açıklığa kavuşturmak en iyisidir. Ancak cevabımda dediğim gibi, benim izlenimim , davaların bir alt kümesinde kullanımları hakkında devam eden bir tartışma olduğu yönünde - ve alıntı yaptığım yazılar (hakemlerden aldığım çelişkili tavsiyelerin yanı sıra) bu konuyu açıklıyor gibi görünüyor.
mkt

3
@mkt, açıklamalarınız için teşekkürler. Gerçekten de, neyin peşinde olduklarından emin olmayan insanlar arasında bir tartışma olabilir. Orada, tartışmanın odağı, ikisinin hangisinin konu hedefi için daha uygun olduğudur. Vurgulamak istediğim şey, hedefiniz iyi tanımlandıktan sonra tartışma konusu olmaması, yani konu hedefinin istatistiksel dile çevrilmesidir (ki eğer istatistik yöntemlerin kullanılması gerekiyorsa kaçınılmazdır). Sanırım katılıyorum, tartışmanın farklı kısımlarını vurguluyoruz.
Richard Hardy

31

Excel'in yanıtlamaya çalıştığı soru şudur: "y'nin x'e bağlı olduğunu varsayarak hangi satırı y'yi en iyi tahmin edeceğini". Cevap, y'deki büyük farklılıklar nedeniyle, hiçbir hattın özellikle iyi olamayacağı ve Excel'in gösterebileceği en iyi şeyin ne olduğudur.

Önerilen kırmızı çizginizi alırsanız ve x = -0.714 ve x = -0.712 değerine kadar devam ederseniz, değerlerinin grafikten çıkış yolunda, karşılık gelen y değerlerinden büyük bir mesafede olduğunu göreceksiniz. .

Excel'in yanıtladığı soru “veri noktalarına hangi satırın en yakın olduğu” değil, “y değerlerini x değerlerinden tahmin etmek için en iyi satır” dır ve bunu doğru yapar.


4
Kesinlikle. Temel varsayım "x verilir, y ölçülür / tahmin edilir" şeklindedir.
Floris

12

Diğer cevaplara bir şey eklemek istemiyorum, ancak bazı terminoloji derslerinde, özellikle de bazı istatistik derslerinde kullanılan "en uygun çizgi" terimini kötüye kullandığınızı söylemek istiyorum.

Sezgisel olarak, bir "en uygun çizgi" kırmızı çizginize benzeyecektir. Ancak Excel tarafından üretilen satır bir "en uygun satır" değildir; Olmaya bile çalışmıyor. Bu soruya cevap veren bir çizgi: x'in değeri göz önüne alındığında, y için mümkün olan en iyi tahminim nedir? veya alternatif olarak, her x değeri için ortalama y değeri nedir?

Burada x ve y arasındaki asimetriye dikkat edin; "en uygun çizgi" adını kullanmak bunu gizler. Excel'in “trendline” kullanımı da öyle.

Aşağıdaki linkte çok iyi açıklanmıştır:

https://www.stat.berkeley.edu/~stark/SticiGui/Text/regression.htm

Yukarıdaki cevapta "Tip 2" veya Berkeley istatistik kursu sayfasındaki "SD Satırı" olarak adlandırılana benzer bir şey isteyebilirsiniz.


11

Optik sorunun bir kısmı farklı ölçeklerden geliyor - aynı ölçeği her iki eksende kullanıyorsanız, zaten farklı gözükecektir.

Başka bir deyişle, bu tür 'en uygun' çizgilerin çoğunu bir eksen ölçeğini yayarak 'sezgisel' görünmesini sağlayabilirsiniz.


1
Bunun cevabı olduğuna katılıyorum - değerlerin X aralığı yaklaşık 0,02 genişliğindedir, ancak Y aralığı yalnızca yaklaşık 0,005'tir - aslında grafik yüksek olduğu kadar 4 kat geniş olmalıdır ve bunun açık olacağı açıktır. en iyi uyum yatay olacaktır. Söz konusu fenomen, farklı ölçeklerden dolayı tamamen görseldir.
RemcoGerlich

3
@RemcoGerlich Soruda gösterildiği gibi grafiğin en boy oranının faydalı olmadığını kabul edebiliriz. Ancak, 4 kat daha geniş bir grafiğe ihtiyacınız olduğuna dair öneri, çünkü sayısal olarak aralıklar bu oranda değişkendir ve kesinlikle sorun değildir. Her iki eksendeki birimler 1000 faktörü ile değiştirildiyse, 4000 veya 0.004'lük bir en boy oranı önerir misiniz? 4x oranının farklı birimlerin sadece bir yan etkisi olması muhtemeldir.
Nick Cox

4
Diğer cevaplar doğru cevabı verir. Bu ne yazık ki değil. Değerleri aynı görsel imajı elde edersek, ancak eşit eksenlerle yeniden ölçeklendirirsek, hala "tip 1" vs "tip 2" montaj problemidir.
Hans Janssen

1
En iyi "sağduyu", insan gözüne "doğru olanı" hakkında konuşuyor. Ve sonra eksenlerin ölçeklendirilmesi, ilgili olan ana şeydir.
RemcoGerlich

Bazen sezgisel görünen şeyin ölçekleme gibi saçma sapan şeylerden etkilendiğini, böyle bir durum olmamasına rağmen. Burada excel'in yaptığı ile OP'nin istediği arasında gerçek bir uyumsuzluğa sahibiz
Aksakal

4

Birkaç kişi sorunun görsel olduğunu belirtmiştir - kullanılan grafiksel ölçeklendirme yanıltıcı bilgi üretir. Daha spesifik olarak, "lon" un ölçeklendirilmesi, regresyon çizgisinin zayıf bir uyum sağladığını öne süren sıkı bir spiral gibi göründüğü şekildedir (kabul ettiğim bir değerlendirme, verdiğiniz kırmızı çizginin daha düşük kare hataları sağlayacağını sunulan şekilde şekillendirildi).

Aşağıda, değiştirilmiş "lon" için ölçeklendirme ile Excel'de oluşturulan bir scatterplot sağladım, böylece scatterplot'ınızda sıkı spiral oluşturmaz. Bu değişiklikle birlikte, regresyon çizgisi şimdi daha iyi bir görsel uyum sağlıyor ve bence orijinal dağılım grafiğindeki ölçeklendirmenin yanıltıcı bir uyum değerlendirmesi sağladığını göstermeye yardımcı oluyor.

Burada regresyonun iyi çalıştığını düşünüyorum. Daha karmaşık bir analiz gerekli olduğunu sanmıyorum.

görüntü tanımını buraya girin

İlgilendiğim herhangi biri için, bir eşleme aracı kullanarak verileri çizdim ve verilere uygun olan gerilimi gösterdim. Kırmızı noktalar kaydedilen veriler ve yeşil ise regresyon çizgisidir.

görüntü tanımını buraya girin

Ve burada regresyon çizgisine sahip bir dağılım grafiği içinde aynı veriler var; Burada lat bağımlı olarak değerlendirilir ve lat skorları coğrafi profile uyması için tersine çevrilir.

görüntü tanımını buraya girin


1
Regresyon, rüzgarın sürüklenmesinin yönünü göstermiyor
Aksakal

Sadece enlem ve boylamı biliyoruz ve sağlanan veriler için birinin diğerine göre bir değişiklik gösterdiğini gösteriyor.
Bryan

Peki bu trend çizgisi ne anlama geliyor?
Aksakal

Veri dosyasındaki ilk noktanın başlangıç ​​yeri olduğunu varsayarsak, doğuda ilerleyen rotada hafif bir kuzey artışı olduğu anlaşılmaktadır. Veriler rüzgar şiddeti veya yüksekliği hakkında bilgi sağlamaz, ancak kuzeyden doğuya doğru yön sağlar.
Bryan

Düzeltme, kullandığım haritalama yazılımı ikincil istek, ancak verileri yalnızdır, bu nedenle rüzgar yönü doğuda kuzeyde hafif olur, yani kuzeyde ilerleyen hafif bir doğu hareketi vardır (veya güneyde hafif batı hareketi vardır). ) gitti.
Bryan

1

Karıştırdığınız sıradan en küçük kareler (OLS) regresyonu (öngörülen değerler hakkındaki kare sapmaların toplamını en aza indirir, (gözlenen tahmini) ^ 2) ve ana eksen regresyonunu (her nokta arasındaki dik mesafenin karelerinin toplamını en aza indirir) regresyon çizgisi, bazen buna Tip II regresyon, ortogonal regresyon veya standartlaştırılmış temel bileşen regresyon denir).

Sadece R'deki iki yaklaşımı karşılaştırmak istiyorsanız, sadece göz atın

data=read.csv("https://pastebin.com/raw/4TsstQYm")
require(lmodel2)
fit = lmodel2(lat ~ lon, data=data)
plot(fit,method="OLS") # ordinary least squares regression

görüntü tanımını buraya girin

plot(fit,method="MA") # major axis regression

görüntü tanımını buraya girin

En sezgisel bulduğunuz şey (kırmızı çizginiz) yalnızca görsel olarak en çok görünen ve en mantıklı görünen, eksenlerinize dik mesafeyi en aza indiren eksen eksen gerilemesidir. OLS regresyonu, eğer x ve y değişkeni aynı ölçüm ölçeğinde ise ve / veya aynı miktarda hataya sahipse, puanlarınıza dik mesafeyi en aza indirecek gibi görünecektir (bunu basitçe Pythagoras teoremine göre görebilirsiniz). Senin durumunda, y değişkeni üzerinde çok daha fazla yayıldı, bu yüzden farkı ...


0

PCA cevabı en iyisidir çünkü bence problemin açıklamasından sonra yapmanız gereken şey budur, ancak PCA cevabı PCA'nın ve tamamen farklı şeyler olan regresyonun kafasını karıştırabilir. Bu belirli veri kümesini tahmin etmek istiyorsanız, o zaman regresyon yapmanız ve büyük olasılıkla Deming regresyon yapmak istemeniz (sanırım bazen Tip II'ye dayanır, bu açıklamayı hiç duymamışımdır). Bununla birlikte, hangi yönlerin en önemli olduğunu (özvektörler) bulmak ve bunların veri seti (özdeğerler) üzerindeki göreceli etkisinin bir ölçüsünü bulmak istiyorsanız, PCA doğru yaklaşımdır.


4
Bu çoğunlukla diğer cevaplarla ilgili bir dizi yorum. Her birine doğrudan yorum yapmak daha iyi olur. @Aksakal'ın verdiği cevabın PCA ile regresyonun kafasını karıştırdığını görmüyorum.
Nick Cox,

Doğrudan yorum yapmak istedim, ancak yeterince saygın değildi. Aksakal’ın regresyonun kafasını karıştırdığını sanmıyorum, ancak OP’ye PCA ve regresyonun tamamen farklı olduğunu göstermeye değeceğini düşünüyorum.
Andrew H,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.